Převod textů z PDT do vertikály
- linky:
$ cd ~/PROJEKTY/GACR1012/data/PDT/dtest $ for ff in /corp/PDT/all/data/full/tamw/dtest/*; do ln -s $ff; done
- v TMT převést do
tmt
:TMT:$ cd ~/PROJEKTY/GACR1012/data/PDT/dtest TMT:$ for ff in *.a.gz; do echo $ff; /data/tectomt/tools/format_convertors/pdt_to_tmt/pdt-to-tmt.pl $ff; done
- převést do
csts
:for ff in *.tmt; do echo $ff; /data/tectomt/tools/format_convertors/tmt_to_csts/tmt_mtrees_to_csts.pl SCzechM cs $ff; done
Zpracování pro porovnání
- vytvořit adresář
csts-final
a nalinkovat do něj všechnacsts
z~/PROJEKTY/GACR1012/data/PDT/dtest
:$ cd csts-final $ for ff in ~/PROJEKTY/GACR1012/data/PDT/dtest/*.csts; do ln -s $ff; done $ for ff in *.csts; do mv $ff ${ff%.csts}; done
- vytvořit
vert-final
a převést do nějcsts-final
bez ocásků:$ cd /corp/DTEST-PDT make-corp.sh -s csts-final -t vert-final -P "cstocs utf8 il2 | rem-tail-vert.sh" -v -p8
- vytvořit
vert
:make-corp.sh -t vert -s vert-final -v -p8
- dokončit tagování:
make-corp.sh -s vert -t vert-morf -g -v -p8 make-whole-corp.sh -t rules -v -p8
- původní data z
PDT
jsou pak brána jako data zmerge
neboetalon