Převod textů z PDT do vertikály
- linky:
$ cd ~/PROJEKTY/GACR1012/data/PDT/dtest $ for ff in /corp/PDT/all/data/full/tamw/dtest/*; do ln -s $ff; done
- v TMT převést do
tmt:TMT:$ cd ~/PROJEKTY/GACR1012/data/PDT/dtest TMT:$ for ff in *.a.gz; do echo $ff; /data/tectomt/tools/format_convertors/pdt_to_tmt/pdt-to-tmt.pl $ff; done
- převést do
csts:for ff in *.tmt; do echo $ff; /data/tectomt/tools/format_convertors/tmt_to_csts/tmt_mtrees_to_csts.pl SCzechM cs $ff; done
Zpracování pro porovnání
- vytvořit adresář
csts-finala nalinkovat do něj všechnacstsz~/PROJEKTY/GACR1012/data/PDT/dtest:$ cd csts-final $ for ff in ~/PROJEKTY/GACR1012/data/PDT/dtest/*.csts; do ln -s $ff; done $ for ff in *.csts; do mv $ff ${ff%.csts}; done - vytvořit
vert-finala převést do nějcsts-finalbez ocásků:$ cd /corp/DTEST-PDT make-corp.sh -s csts-final -t vert-final -P "cstocs utf8 il2 | rem-tail-vert.sh" -v -p8
- vytvořit
vert:make-corp.sh -t vert -s vert-final -v -p8
- dokončit tagování:
make-corp.sh -s vert -t vert-morf -g -v -p8 make-whole-corp.sh -t rules -v -p8
- původní data z
PDTjsou pak brána jako data zmergeneboetalon