Wiki spuštěna 24. 7. 2025

Převod textů z PDT do vertikály

  • linky:
    $ cd ~/PROJEKTY/GACR1012/data/PDT/dtest
    $ for ff in /corp/PDT/all/data/full/tamw/dtest/*; do ln -s $ff; done
  • v TMT převést do tmt:
    TMT:$ cd ~/PROJEKTY/GACR1012/data/PDT/dtest
    TMT:$ for ff in *.a.gz; do echo $ff; /data/tectomt/tools/format_convertors/pdt_to_tmt/pdt-to-tmt.pl $ff; done
  • převést do csts:
    for ff in *.tmt; do echo $ff; /data/tectomt/tools/format_convertors/tmt_to_csts/tmt_mtrees_to_csts.pl SCzechM cs $ff; done

Zpracování pro porovnání

  • vytvořit adresář csts-final a nalinkovat do něj všechna csts z ~/PROJEKTY/GACR1012/data/PDT/dtest:
    $ cd csts-final
    $ for ff in ~/PROJEKTY/GACR1012/data/PDT/dtest/*.csts; do ln -s $ff; done
    $ for ff in *.csts; do mv $ff ${ff%.csts}; done
  • vytvořit vert-final a převést do něj csts-final bez ocásků:
    $ cd /corp/DTEST-PDT
    make-corp.sh -s csts-final -t vert-final -P "cstocs utf8 il2 | rem-tail-vert.sh" -v -p8
  • vytvořit vert:
    make-corp.sh -t vert -s vert-final -v -p8
  • dokončit tagování:
    make-corp.sh -s vert -t vert-morf -g -v -p8
    make-whole-corp.sh -t rules -v -p8
  • původní data z PDT jsou pak brána jako data z merge nebo etalon

QR Code
QR Code wiki:user:skoumal:pdt (generated for current page)