====== MorphoDiTa ====== * Na této stránce jsou návody jak pracovat s MorphoDiTou a jak připravovat data ===== Příprava dat z vertikály ===== * Pracujeme na ''grimmovi'' * Připravíme vhodný adresář, kde se bude vše dělat, v tomto návodu to bude ''/store/corp/PDT_plus'' * Vytvoříme podadresář ''vert'':mkdir verta umístíme tam vertikály * Převedeme data do ''csts'':make-corp.sh -s vert -t csts -p3 -vČíslo u parametru ''-p'' (počet paralelních threadů) upravíme podle počtu souborů, ''-v'' (verbose) uvedeme, chceme-li vidět, jak práce postupuje * Provedeme morfologii:make-corp.sh -s csts -t csts-morf -A1 -B1 -Eucs2 -M -p3 -vParametry ''-A1'' a ''-B1'' říkají, že se mají provést pouze povinné skripty z PreMorfo (''-B'' -- before) a PostMorfo (''-A'' -- after) * Výsledek ovidujeme:make-asp.sh -Eucs2 -fcsts -p3 -s csts-morf -t csts-morf-vid -v * Opravíme vidy a roznásobíme proměnné:parallel-filter.sh -C "corr-asp.pl | JH-wide-csts.sh" -p3 -s csts-morf-vid -t csts-morf-vid-corr -v * Převedeme do ''vert'':make-corp.sh -s csts-morf-vid-corr -t vert-morf-vid-corr -p3 -v * Provedeme úpravy dat, aby tagy a lemmata odpovídala Etalonu:cd /usr/local/corp/Perl ./EtalonizaceVertikaly.pl /store/corp/PDT_plus/vert-morf-vid-corr /store/corp/PDT_plus/vert-morf-vid-corr-etln cd - * Převedeme výsledek na vstup pro MorphoDiTu:mkdir vert-morphodita-in parallel-filter.sh -C "sed '1{/^$/d}'" -s vert-morf-vid-corr-etln -t vert-morphodita-in -p3 -v * Můžeme udělat nějaké kontroly, jestli se nám data nepoztrácela a jestli mají správný formát: cmp-lines-csts.sh csts csts-morf-vid-corr parallel-filter.sh -C "check-csts.pl 16" -p3 -n -s csts-morf-vid-corr -v