====== Převod textů z PDT do vertikály ====== * linky:$ cd ~/PROJEKTY/GACR1012/data/PDT/dtest $ for ff in /corp/PDT/all/data/full/tamw/dtest/*; do ln -s $ff; done * v TMT převést do ''tmt'':TMT:$ cd ~/PROJEKTY/GACR1012/data/PDT/dtest TMT:$ for ff in *.a.gz; do echo $ff; /data/tectomt/tools/format_convertors/pdt_to_tmt/pdt-to-tmt.pl $ff; done * převést do ''csts'':for ff in *.tmt; do echo $ff; /data/tectomt/tools/format_convertors/tmt_to_csts/tmt_mtrees_to_csts.pl SCzechM cs $ff; done ===== Zpracování pro porovnání ===== * vytvořit adresář ''csts-final'' a nalinkovat do něj všechna ''csts'' z ''~/PROJEKTY/GACR1012/data/PDT/dtest'':$ cd csts-final $ for ff in ~/PROJEKTY/GACR1012/data/PDT/dtest/*.csts; do ln -s $ff; done $ for ff in *.csts; do mv $ff ${ff%.csts}; done * vytvořit ''vert-final'' a převést do něj ''csts-final'' bez ocásků:$ cd /corp/DTEST-PDT make-corp.sh -s csts-final -t vert-final -P "cstocs utf8 il2 | rem-tail-vert.sh" -v -p8 * vytvořit ''vert'':make-corp.sh -t vert -s vert-final -v -p8 * dokončit tagování:make-corp.sh -s vert -t vert-morf -g -v -p8 make-whole-corp.sh -t rules -v -p8 * původní data z ''PDT'' jsou pak brána jako data z ''merge'' nebo ''etalon''