====== Příprava Etalonu pro porovnání s MDiTou a s hybridem ====== * V Etalonu automaticky opravíme různé nedodělky programem ''UpravGold.pl'', který se momentálně nachází v adresáři ''/home/skoumal/Etalon2/Tools''. * ''UpravGold.pl'' žere vstup s mezerou, opravené soubory píše do stejného adresáře, mají příponu ''.out''. * Po kontrole přesuneme opravené soubory do adresáře s nejnovější verzí: for ff in *.out; do echo ${ff%.out}; cut -f1-2 < $ff | tr ' ' ' ' \ > ~/PROJEKTY/INFRASTRUKTURA/Etalon/Etalon2/Verze/0.9/3/${ff%.out}; done ===== Porovnání s hybridem ===== * Nejdřív musíme označkovat korpus z vertikály: cd /home/skoumal/PROJEKTY/INFRASTRUKTURA/Etalon/Etalon2/Verze/0.9/3 for ff in *; do cut -f1 $ff > /store/corp/Etalon2/vert/$ff; done * Převedeme do ''csts'', uděláme morfologii na natokaném vstupu a potom zbytek: cd /store/corp/Etalon2 make-corp.sh -s vert -t csts -p45 -v make-corp.sh -A1 -B1 -s csts -t csts-morf -Eucs2 -M -p45 -v make-whole-corp-csts.sh -Eucs2 -f -M -p45 -trules -v * Převedeme do vertikály a zachováme ''src'': parallel-filter.sh -C "csts2cnk.pl | sed '1{/^$/d}'" -p45 \ -s csts-rules-frazrl-rulh1-tag-vid-corr -t vert-CNK -v * Korpus pak sestavíme takto: cd ~/PROJEKTY/INFRASTRUKTURA/Etalon/Etalon2/Verze/0.9/3 for ff in *; do echo $ff; paste $ff <(cut -f2- /store/corp/Etalon2/vert-compare/$ff; done ** A pokračujeme s příkazem pro ''manatee'' s těmito pozicemi: * word * g_lemma * g_tag * h_lemma * h_tag * src * shoda .. manatee-registry.sh -c. -f vert-compare -ta na jakobsonovi: nosketch-registry.sh /net/chomsky/store/manatee-registry/Etalon2-compare