MorphoDiTa
- Na této stránce jsou návody jak pracovat s MorphoDiTou a jak připravovat data
Příprava dat z vertikály
- Pracujeme na
grimmovi
- Připravíme vhodný adresář, kde se bude vše dělat, v tomto návodu to bude
/store/corp/PDT_plus
- Vytvoříme podadresář
vert
:mkdir vert
a umístíme tam vertikály
- Převedeme data do
csts
:make-corp.sh -s vert -t csts -p3 -v
Číslo u parametru
-p
(počet paralelních threadů) upravíme podle počtu souborů,-v
(verbose) uvedeme, chceme-li vidět, jak práce postupuje - Provedeme morfologii:
make-corp.sh -s csts -t csts-morf -A1 -B1 -Eucs2 -M -p3 -v
Parametry
-A1
a-B1
říkají, že se mají provést pouze povinné skripty z PreMorfo (-B
– before) a PostMorfo (-A
– after) - Výsledek ovidujeme:
make-asp.sh -Eucs2 -fcsts -p3 -s csts-morf -t csts-morf-vid -v
- Opravíme vidy a roznásobíme proměnné:
parallel-filter.sh -C "corr-asp.pl | JH-wide-csts.sh" -p3 -s csts-morf-vid -t csts-morf-vid-corr -v
- Převedeme do
vert
:make-corp.sh -s csts-morf-vid-corr -t vert-morf-vid-corr -p3 -v
- Provedeme úpravy dat, aby tagy a lemmata odpovídala Etalonu:
cd /usr/local/corp/Perl ./EtalonizaceVertikaly.pl /store/corp/PDT_plus/vert-morf-vid-corr /store/corp/PDT_plus/vert-morf-vid-corr-etln cd -
- Převedeme výsledek na vstup pro MorphoDiTu:
mkdir vert-morphodita-in parallel-filter.sh -C "sed '1{/^$/d}'" -s vert-morf-vid-corr-etln -t vert-morphodita-in -p3 -v
- Můžeme udělat nějaké kontroly, jestli se nám data nepoztrácela a jestli mají správný formát:
cmp-lines-csts.sh csts csts-morf-vid-corr parallel-filter.sh -C "check-csts.pl 16" -p3 -n -s csts-morf-vid-corr -v