Table of Contents
Trénovací korpus vytvořený z Etalonu
Etalon
se nedá vzít, jak je. Od trénovacího korpusu se liší v těchto bodech:- Tagy mají 16 pozic.
- Nejsou tam neznámá slova (nevadí).
- Jsou tam provedené opravy, tzn. původní nabídka neobsahovala správné lemma a tag (nevadí).
- Tagy jsou zjednodušeny.
Formát dat pro MorphoDiTu
csts
- Tagy mají 15 pozic
- Trénování provedeme až po:
csts-morf
csts-rules
csts-rules-frazrl-rules1-rulh1
- Adresáře s hotovými daty:
csts-Etalon
csts-rulh1
Postup převodu Etalonu
- Data jsou uložena v
/home/skoumal/PROJEKTY/INFRASTRUKTURA/Etalon/Morphodita-train
.
Zpracování Etalonu pravidly
- Nejdříve odstraníme z
Etalonu
lemmata a tagy:mkdir vert cd ../Verze/0.9/1 for ff in *; do cut -f1 $ff > ../../../Morphodita-train/vert/$ff; done
- Provedeme desambiguaci až po
rulh1
:cd ../../../Morphodita-train make-corp.sh -s vert -t csts -v -p45 screen make-corp.sh -s csts -t csts-morf -A0 -B0 -Eucs2 -M -v -p45 screen make-whole-corp-csts.sh -Eucs2 -M -p45 -v -Trulh1 -trules
- Zjednodušíme tagy a vyházíme duplicity:
mkdir csts-rulh1 cd csts-rules-frazrl-rules1-rulh1 for ff in *; do echo $ff; ../bin/80_simplify-tags.pl < $ff | ../bin/remove-dupl-csts-mark.pl h > ../csts-rulh1/${ff%.csts}; done
<code>make-corp.sh -s csts-rules-frazrl-rules1-rulh1 -t vert-rules-frazrl-rules1-rulh1 -p45 -v
cd vert-rules-frazrl-rules1-rulh1
for ff in *.csts; do mv $ff ${ff%.csts}.vert; done
for ff in *.vert; do sed -i '1{/^$/d}' $ff; done</code>
Úprava Etalonu
- Vytvoříme nový adresář
vert-Etalon
a do něj převedemeEtalon
s tagy zkrácenými na 15:cd .../Verze/0.9/1 for ff in *; do perl -pe 's/(\t.*)\t/$1 /' $ff | perl -pe 's/.$//' > ../../../Morphodita-train/vert-Etalon/$ff; done
- Převedeme do
csts
:make-corp.sh -s vert-Etalon -t csts-Etalon -v -p45
Porovnání
- Orientačně můžeme porovnat výsledky:
cd .../Morphodita-train diff -y <(perl -pe 's/<f[^>]+>/<f>/' csts-Etalon/11minutX01) <(perl -pe 's/<f[^>]+>/<f>/' csts-rulh1/11minutX01.csts) | l
- anebo všechno:
cd csts-Etalon for ff in *; do echo $ff; diff -y <(perl -pe 's/<f[^>]+>/<f>/' $ff) <(perl -pe 's/<f[^>]+>/<f>/' ../csts-rulh1/$ff); done | l