~/PROJEKTY/INFRASTRUKTURA/Etalon/Verze/0.9/1 (vertikála)/store/corp/ETALON/Etalon-newmorph/csts-morfvert-Etalon a do něj dáme upravené soubory z Etalonu:cd ~/PROJEKTY/INFRASTRUKTURA/Etalon/Verze/0.9/1 for ff in *; do perl -pe 's/\tXX--/\tF%--/' $ff | perl -pe 's/(\t([^\t\n])[^\t\n]+).$/$1\t$2/' \ > /store/corp/ETALON/Etalon-newmorph/vert-Etalon/$ff; done
které nemají vid, mají XX opravené na F% a mají sloupec s POS
csts-POS, do kterého uložíme soubory zpracované novou morfologií:parallel-filter.sh \ -C "merge-lemmas.pl | remove-dupl-csts-mark.pl M | merge-tags.pl | merge-POS.pl" \ -p 45 -scsts-morf -t csts-POS -v
které mají scuknutá lemmata a tagy a mají tag <MMp> pro POS
parallel-filter.sh \
-C "csts2cnk.pl | perl -pe 's/\tM<MMp>/<MMp>/' | perl -pe 's/<MMp>/\t/' | sed '1{/^$/d}'" \
-s csts-POS -t vert-POS -e -v -p45
které pak ještě přejmenujeme:
cd vert-POS
for ff in *.csts; do mv $ff ${ff%.csts}; done
vert-Etalon a vert-POS stejně dlouhé:for ff in *; do echo $ff; sdiff -s <(cut -f1 $ff) <(cut -f1 ../vert-Etalon/$ff); done | l
(měly by se lišit jen entity)
mkdir vert-cmp cd vert-Etalon for ff in *; do echo $ff; paste $ff <(cut -f2- ../vert-POS/$ff) | compare-lemmas.pl \ > ../vert-cmp/$ff; done
vert-cmp uděláme korpus (na chomském):cd /net/grimm/store/corp/ETALON/Etalon-newmorph manatee-registry.sh -c . -f vert-cmp -t
definiční soubor:
PATH /net/chomsky/store/manatee-registry/Etalon-newmorph-cmp-data
ENCODING utf-8
INFO ""
ATTRIBUTE word {
TYPE "FD_FGD"
}
ATTRIBUTE elemma {
TYPE "FD_FGD"
}
ATTRIBUTE etag {
TYPE "FD_FGD"
}
ATTRIBUTE epos {
TYPE "FD_FGD"
}
ATTRIBUTE nlemma {
TYPE "FD_FGD"
MULTIVALUE y
MULTISEP "|"
}
ATTRIBUTE ntag {
TYPE "FD_FGD"
MULTIVALUE y
MULTISEP "|"
}
ATTRIBUTE npos {
TYPE "FD_FGD"
MULTIVALUE y
MULTISEP "|"
}
ATTRIBUTE elnl {
TYPE "FD_FGD"
}
ATTRIBUTE etnt {
TYPE "FD_FGD"
}
STRUCTURE doc {
ATTRIBUTE name
}
STRUCTURE s