====== Trénovací korpus vytvořený z Etalonu ====== * ''Etalon'' se nedá vzít, jak je. Od trénovacího korpusu se liší v těchto bodech: * Tagy mají 16 pozic. * Nejsou tam neznámá slova (**nevadí**). * Jsou tam provedené opravy, tzn. původní nabídka neobsahovala správné lemma a tag (**nevadí**). * Tagy jsou zjednodušeny. ===== Formát dat pro MorphoDiTu ===== * ''csts'' * Tagy mají 15 pozic * Trénování provedeme až po: * ''csts-morf'' * ''csts-rules'' * ''csts-rules-frazrl-rules1-rulh1'' * Adresáře s hotovými daty: * ''csts-Etalon'' * ''csts-rulh1'' ===== Postup převodu Etalonu ===== * Data jsou uložena v ''/home/skoumal/PROJEKTY/INFRASTRUKTURA/Etalon/Morphodita-train''. ==== Zpracování Etalonu pravidly ==== * Nejdříve odstraníme z ''Etalonu'' lemmata a tagy:mkdir vert cd ../Verze/0.9/1 for ff in *; do cut -f1 $ff > ../../../Morphodita-train/vert/$ff; done * Provedeme desambiguaci až po ''rulh1'': cd ../../../Morphodita-train make-corp.sh -s vert -t csts -v -p45 screen make-corp.sh -s csts -t csts-morf -A0 -B0 -Eucs2 -M -v -p45 screen make-whole-corp-csts.sh -Eucs2 -M -p45 -v -Trulh1 -trules * Zjednodušíme tagy a vyházíme duplicity:mkdir csts-rulh1 cd csts-rules-frazrl-rules1-rulh1 for ff in *; do echo $ff; ../bin/80_simplify-tags.pl < $ff | ../bin/remove-dupl-csts-mark.pl h > ../csts-rulh1/${ff%.csts}; done make-corp.sh -s csts-rules-frazrl-rules1-rulh1 -t vert-rules-frazrl-rules1-rulh1 -p45 -v cd vert-rules-frazrl-rules1-rulh1 for ff in *.csts; do mv $ff ${ff%.csts}.vert; done for ff in *.vert; do sed -i '1{/^$/d}' $ff; done ==== Úprava Etalonu ==== * Vytvoříme nový adresář ''vert-Etalon'' a do něj převedeme ''Etalon'' s tagy zkrácenými na 15:cd .../Verze/0.9/1 for ff in *; do perl -pe 's/(\t.*)\t/$1 /' $ff | perl -pe 's/.$//' > ../../../Morphodita-train/vert-Etalon/$ff; done * Převedeme do ''csts'':make-corp.sh -s vert-Etalon -t csts-Etalon -v -p45 ==== Porovnání ==== * Orientačně můžeme porovnat výsledky:cd .../Morphodita-train diff -y <(perl -pe 's/]+>//' csts-Etalon/11minutX01) <(perl -pe 's/]+>//' csts-rulh1/11minutX01.csts) | l * anebo všechno:cd csts-Etalon for ff in *; do echo $ff; diff -y <(perl -pe 's/]+>//' $ff) <(perl -pe 's/]+>//' ../csts-rulh1/$ff); done | l