====== Příprava Etalonu pro porovnání s MDiTou a s hybridem ======
* V Etalonu automaticky opravíme různé nedodělky programem ''UpravGold.pl'', který se momentálně nachází v adresáři ''/home/skoumal/Etalon2/Tools''.
* ''UpravGold.pl'' žere vstup s mezerou, opravené soubory píše do stejného adresáře, mají příponu ''.out''.
* Po kontrole přesuneme opravené soubory do adresáře s nejnovější verzí:
for ff in *.out; do echo ${ff%.out}; cut -f1-2 < $ff | tr ' ' ' ' \
> ~/PROJEKTY/INFRASTRUKTURA/Etalon/Etalon2/Verze/0.9/3/${ff%.out}; done
===== Porovnání s hybridem =====
* Nejdřív musíme označkovat korpus z vertikály:
cd /home/skoumal/PROJEKTY/INFRASTRUKTURA/Etalon/Etalon2/Verze/0.9/3
for ff in *; do cut -f1 $ff > /store/corp/Etalon2/vert/$ff; done
* Převedeme do ''csts'', uděláme morfologii na natokaném vstupu a potom zbytek:
cd /store/corp/Etalon2
make-corp.sh -s vert -t csts -p45 -v
make-corp.sh -A1 -B1 -s csts -t csts-morf -Eucs2 -M -p45 -v
make-whole-corp-csts.sh -Eucs2 -f -M -p45 -trules -v
* Převedeme do vertikály a zachováme ''src'':
parallel-filter.sh -C "csts2cnk.pl | sed '1{/^$/d}'" -p45 \
-s csts-rules-frazrl-rulh1-tag-vid-corr -t vert-CNK -v
* Korpus pak sestavíme takto:
cd ~/PROJEKTY/INFRASTRUKTURA/Etalon/Etalon2/Verze/0.9/3
for ff in *; do echo $ff; paste $ff <(cut -f2- /store/corp/Etalon2/vert-compare/$ff; done
** A pokračujeme s příkazem pro ''manatee'' s těmito pozicemi:
* word
* g_lemma
* g_tag
* h_lemma
* h_tag
* src
* shoda
..
manatee-registry.sh -c. -f vert-compare -t
a na jakobsonovi:
nosketch-registry.sh /net/chomsky/store/manatee-registry/Etalon2-compare