====== Příprava korpusu pro porovnání Etalonu s novou morfologií ====== * Etalon je v adresáři ''~/PROJEKTY/INFRASTRUKTURA/Etalon/Verze/0.9/1'' (vertikála) * Texty nově projeté morfologií jsou na grimmovi v adresáři ''/store/corp/ETALON/Etalon-newmorph/csts-morf'' * Vyrobíme další adresář ''vert-Etalon'' a do něj dáme upravené soubory z Etalonu: cd ~/PROJEKTY/INFRASTRUKTURA/Etalon/Verze/0.9/1 for ff in *; do perl -pe 's/\tXX--/\tF%--/' $ff | perl -pe 's/(\t([^\t\n])[^\t\n]+).$/$1\t$2/' \ > /store/corp/ETALON/Etalon-newmorph/vert-Etalon/$ff; donekteré nemají vid, mají ''XX'' opravené na ''F%'' a mají sloupec s POS * Vyrobíme adresář ''csts-POS'', do kterého uložíme soubory zpracované novou morfologií: parallel-filter.sh \ -C "merge-lemmas.pl | remove-dupl-csts-mark.pl M | merge-tags.pl | merge-POS.pl" \ -p 45 -scsts-morf -t csts-POS -vkteré mají scuknutá lemmata a tagy a mají tag '''' pro POS * Tyto soubory převedeme do vertikály: parallel-filter.sh \ -C "csts2cnk.pl | perl -pe 's/\tM//' | perl -pe 's//\t/' | sed '1{/^$/d}'" \ -s csts-POS -t vert-POS -e -v -p45které pak ještě přejmenujeme: cd vert-POS for ff in *.csts; do mv $ff ${ff%.csts}; done * Provedeme kontrolu, že jsou soubory ve ''vert-Etalon'' a ''vert-POS'' stejně dlouhé: for ff in *; do echo $ff; sdiff -s <(cut -f1 $ff) <(cut -f1 ../vert-Etalon/$ff); done | l(měly by se lišit jen entity) * Sloučíme vertikály: mkdir vert-cmp cd vert-Etalon for ff in *; do echo $ff; paste $ff <(cut -f2- ../vert-POS/$ff) | compare-lemmas.pl \ > ../vert-cmp/$ff; done * Ze souborů ve ''vert-cmp'' uděláme korpus (na chomském): cd /net/grimm/store/corp/ETALON/Etalon-newmorph manatee-registry.sh -c . -f vert-cmp -tdefiniční soubor: PATH /net/chomsky/store/manatee-registry/Etalon-newmorph-cmp-data ENCODING utf-8 INFO "" ATTRIBUTE word { TYPE "FD_FGD" } ATTRIBUTE elemma { TYPE "FD_FGD" } ATTRIBUTE etag { TYPE "FD_FGD" } ATTRIBUTE epos { TYPE "FD_FGD" } ATTRIBUTE nlemma { TYPE "FD_FGD" MULTIVALUE y MULTISEP "|" } ATTRIBUTE ntag { TYPE "FD_FGD" MULTIVALUE y MULTISEP "|" } ATTRIBUTE npos { TYPE "FD_FGD" MULTIVALUE y MULTISEP "|" } ATTRIBUTE elnl { TYPE "FD_FGD" } ATTRIBUTE etnt { TYPE "FD_FGD" } STRUCTURE doc { ATTRIBUTE name } STRUCTURE s