====== Sjednocení formátu anotovaných korpusů ====== ===== Úprava ručně anotovaných textů ===== * převést do vertikály s jedním lemmatem a tagem:$ cd .../korpus-export $ for ff in *; do echo $ff; prep-for-tag-comparison.sh < $ff \ > ../../compare/anotatori/$ff; done * podobně u opravených (mergeovaných) souborů:$ cd .../merge-export $ prep-for-tag-comparison.sh < -XX-YY > ../../compare/merge/ ===== Úprava textů anotovaných pravidly (morfologií, ...) ===== * znormalizovat, post-disamb a odstranit duplicity:$ cd /corp/anotace/vert-rules-frazrl-rules $ for ff in *; do echo $ff; rules-for-tag-comparison.sh < $ff \ > ~/PROJEKTY/GACR1012/compare/rules/$ff; done ===== Úprava automaticky tagovaných korpusů (pravidly + morčetem) ===== * provést některé postdisambiguační kroky:$ cd .../korpus-export $ for ff in *; do echo ${ff%-??}; rules-for-tag-comparison.sh \ < /corp/anotace/vert-rules-frazrl-rulh1-tag/${ff%-??} \ > ../../compare/corp/${ff%-??}; done ===== Úprava korpusů otagovaných morčetem ===== * zkopírovat soubory:$ cd .../korpus-export $ for ff in *; do echo ${ff%-??}; cat -s /corp/anotace/vert-morf-tag/${ff%-??} \ | post-disamb.pl \ > ../../compare/morce/${ff%-??}; done ===== Výběr pouze nejednoznačných tagů ===== * $ cd ~/PROJEKTY/GACR1012/comp-PDT/morf $ for ff in *; do echo $ff; mark-uniq < $ff | paste ../PDT/$ff - \ | grep -v '!!!' | cut -f1-2 > ../multi-morf/PDT/$ff; done $ cd /corp/DTEST-PDT/vert-morf-full $ for ff in *; do echo $ff; mark-uniq < $ff \ | paste ~/PROJEKTY/GACR1012/comp-PDT/PDT/$ff - \ | grep -v '!!!' | cut -f1-2 > ~/PROJEKTY/GACR1012/comp-PDT/multi-full/PDT/$ff; done ====== Porovnávání 2 tagů ====== ===== Sloučení výsledků ===== * vert$ cd ~/PROJEKTY/GACR1012/compare/anotatori $ for ff in *; do echo $ff; vert-vert.sh $ff ../corp/${ff%-??} corp-; done * program ''vert-vert.sh'' má jako třetí nepovinný argument předponu výsledného souboru ===== Porovnání tagů ===== * použít program ''compare-vert''$ cd ~/PROJEKTY/GACR1012/compare $ compare-vert tag-table.txt < file$ compare-vert Usage: compare-vert [-CDFX] -C color output CYAN: forms differ GREEN: lemmas differ, BLUE: general tag (>) MAGENTA: detailed tag (<) RED: tags differ (!) -D debug -F full output (including identical lines) -X ignore unknown tags
is a table with differences between tagsets: // 0 - POS // 1 - SUBPOS = > n,l // 2 - GENDER H > F,N QW > FS,NP etc. In the output, lines with differencies are marked as follows: > more general tag on the left side < more general tag on the right side ~ both more and less general tags on both sides ! tags differ and cannot be compared | identical tags ====== Porovnávání 3 tagů ====== ===== Sloučení výsledků ===== * vert$ cd ~/PROJEKTY/GACR1012/compare $ vert-vert-vert.sh merge/ anotatori/- anotatori/- \ > cmp-3input/-- ===== Porovnání tagů ===== * použít program ''compare-3vert''$ cd ~/PROJEKTY/GACR1012/compare $ compare-3vert tag-table.txt < file ====== Porovnání mnoha tagů ze 2 zdrojů ====== ===== Sloučení výsledků ===== * vert$ cd ~/PROJEKTY/GACR1012/compare $ paste merge/ / | perl -pe 's/^[\t]+$//' > cmp-Minput/- * '''' je ''morf'', ''rules'' apod. * porovnat programem ''compare-Mvert''$ cd ~/PROJEKTY/GACR1012/compare $ compare-Mvert tag-table.txt < cmp-Minput/$ compare-Mvert Usage: compare-Mvert [-CF]
-C color output -F full output (including identical lines)
is a table with differences between tagsets: // 0 - POS // 1 - SUBPOS = > n,l // 2 - GENDER H > F,N QW > FS,NP etc. In the output, lines with differencies are marked with >!<