====== Trénovací korpus vytvořený z Etalonu ======
* ''Etalon'' se nedá vzít, jak je. Od trénovacího korpusu se liší v těchto bodech:
* Tagy mají 16 pozic.
* Nejsou tam neznámá slova (**nevadí**).
* Jsou tam provedené opravy, tzn. původní nabídka neobsahovala správné lemma a tag (**nevadí**).
* Tagy jsou zjednodušeny.
===== Formát dat pro MorphoDiTu =====
* ''csts''
* Tagy mají 15 pozic
* Trénování provedeme až po:
* ''csts-morf''
* ''csts-rules''
* ''csts-rules-frazrl-rules1-rulh1''
* Adresáře s hotovými daty:
* ''csts-Etalon''
* ''csts-rulh1''
===== Postup převodu Etalonu =====
* Data jsou uložena v ''/home/skoumal/PROJEKTY/INFRASTRUKTURA/Etalon/Morphodita-train''.
==== Zpracování Etalonu pravidly ====
* Nejdříve odstraníme z ''Etalonu'' lemmata a tagy:mkdir vert
cd ../Verze/0.9/1
for ff in *; do cut -f1 $ff > ../../../Morphodita-train/vert/$ff; done
* Provedeme desambiguaci až po ''rulh1'':
cd ../../../Morphodita-train
make-corp.sh -s vert -t csts -v -p45
screen make-corp.sh -s csts -t csts-morf -A0 -B0 -Eucs2 -M -v -p45
screen make-whole-corp-csts.sh -Eucs2 -M -p45 -v -Trulh1 -trules
* Zjednodušíme tagy a vyházíme duplicity:mkdir csts-rulh1
cd csts-rules-frazrl-rules1-rulh1
for ff in *; do echo $ff; ../bin/80_simplify-tags.pl < $ff | ../bin/remove-dupl-csts-mark.pl h > ../csts-rulh1/${ff%.csts}; done
make-corp.sh -s csts-rules-frazrl-rules1-rulh1 -t vert-rules-frazrl-rules1-rulh1 -p45 -v
cd vert-rules-frazrl-rules1-rulh1
for ff in *.csts; do mv $ff ${ff%.csts}.vert; done
for ff in *.vert; do sed -i '1{/^$/d}' $ff; done
==== Úprava Etalonu ====
* Vytvoříme nový adresář ''vert-Etalon'' a do něj převedeme ''Etalon'' s tagy zkrácenými na 15:cd .../Verze/0.9/1
for ff in *; do perl -pe 's/(\t.*)\t/$1 /' $ff | perl -pe 's/.$//' > ../../../Morphodita-train/vert-Etalon/$ff; done
* Převedeme do ''csts'':make-corp.sh -s vert-Etalon -t csts-Etalon -v -p45
==== Porovnání ====
* Orientačně můžeme porovnat výsledky:cd .../Morphodita-train
diff -y <(perl -pe 's/]+>//' csts-Etalon/11minutX01) <(perl -pe 's/]+>//' csts-rulh1/11minutX01.csts) | l
* anebo všechno:cd csts-Etalon
for ff in *; do echo $ff; diff -y <(perl -pe 's/]+>//' $ff) <(perl -pe 's/]+>//' ../csts-rulh1/$ff); done | l