Příprava Etalonu pro porovnání s MDiTou a s hybridem
- V Etalonu automaticky opravíme různé nedodělky programem
UpravGold.pl
, který se momentálně nachází v adresáři/home/skoumal/Etalon2/Tools
. UpravGold.pl
žere vstup s mezerou, opravené soubory píše do stejného adresáře, mají příponu.out
.- Po kontrole přesuneme opravené soubory do adresáře s nejnovější verzí:
for ff in *.out; do echo ${ff%.out}; cut -f1-2 < $ff | tr ' ' ' ' \ > ~/PROJEKTY/INFRASTRUKTURA/Etalon/Etalon2/Verze/0.9/3/${ff%.out}; done
Porovnání s hybridem
- Nejdřív musíme označkovat korpus z vertikály:
cd /home/skoumal/PROJEKTY/INFRASTRUKTURA/Etalon/Etalon2/Verze/0.9/3 for ff in *; do cut -f1 $ff > /store/corp/Etalon2/vert/$ff; done
- Převedeme do
csts
, uděláme morfologii na natokaném vstupu a potom zbytek:cd /store/corp/Etalon2 make-corp.sh -s vert -t csts -p45 -v make-corp.sh -A1 -B1 -s csts -t csts-morf -Eucs2 -M -p45 -v make-whole-corp-csts.sh -Eucs2 -f -M -p45 -trules -v
- Převedeme do vertikály a zachováme
src
:parallel-filter.sh -C "csts2cnk.pl | sed '1{/^$/d}'" -p45 \ -s csts-rules-frazrl-rulh1-tag-vid-corr -t vert-CNK -v
- Korpus pak sestavíme takto:
cd ~/PROJEKTY/INFRASTRUKTURA/Etalon/Etalon2/Verze/0.9/3 for ff in *; do echo $ff; paste $ff <(cut -f2- </store/corp/Etalon2/vert-CNK/$ff) \ | perl -pe 's/^[\t ]+$//' | compare-etalon-hybrid.pl > /store/corp/Etalon2/vert-compare/$ff; done
- * A pokračujeme s příkazem pro
manatee
s těmito pozicemi:- word
- g_lemma
- g_tag
- h_lemma
- h_tag
- src
- shoda
..
manatee-registry.sh -c. -f vert-compare -t
a na jakobsonovi:
nosketch-registry.sh /net/chomsky/store/manatee-registry/Etalon2-compare