Table of Contents
Sjednocení formátu anotovaných korpusů
Úprava ručně anotovaných textů
- převést do vertikály s jedním lemmatem a tagem:
$ cd .../korpus-export $ for ff in *; do echo $ff; prep-for-tag-comparison.sh < $ff \ > ../../compare/anotatori/$ff; done
- podobně u opravených (mergeovaných) souborů:
$ cd .../merge-export $ prep-for-tag-comparison.sh < <file>-XX-YY > ../../compare/merge/<file>
Úprava textů anotovaných pravidly (morfologií, ...)
- znormalizovat, post-disamb a odstranit duplicity:
$ cd /corp/anotace/vert-rules-frazrl-rules $ for ff in *; do echo $ff; rules-for-tag-comparison.sh < $ff \ > ~/PROJEKTY/GACR1012/compare/rules/$ff; done
Úprava automaticky tagovaných korpusů (pravidly + morčetem)
- provést některé postdisambiguační kroky:
$ cd .../korpus-export $ for ff in *; do echo ${ff%-??}; rules-for-tag-comparison.sh \ < /corp/anotace/vert-rules-frazrl-rulh1-tag/${ff%-??} \ > ../../compare/corp/${ff%-??}; done
Úprava korpusů otagovaných morčetem
- zkopírovat soubory:
$ cd .../korpus-export $ for ff in *; do echo ${ff%-??}; cat -s /corp/anotace/vert-morf-tag/${ff%-??} \ | post-disamb.pl \ > ../../compare/morce/${ff%-??}; done
Výběr pouze nejednoznačných tagů
$ cd ~/PROJEKTY/GACR1012/comp-PDT/morf $ for ff in *; do echo $ff; mark-uniq < $ff | paste ../PDT/$ff - \ | grep -v '!!!' | cut -f1-2 > ../multi-morf/PDT/$ff; done $ cd /corp/DTEST-PDT/vert-morf-full $ for ff in *; do echo $ff; mark-uniq < $ff \ | paste ~/PROJEKTY/GACR1012/comp-PDT/PDT/$ff - \ | grep -v '!!!' | cut -f1-2 > ~/PROJEKTY/GACR1012/comp-PDT/multi-full/PDT/$ff; done
Porovnávání 2 tagů
Sloučení výsledků
- vert
$ cd ~/PROJEKTY/GACR1012/compare/anotatori $ for ff in *; do echo $ff; vert-vert.sh $ff ../corp/${ff%-??} corp-; done
- program
vert-vert.sh
má jako třetí nepovinný argument předponu výsledného souboru
Porovnání tagů
- použít program
compare-vert
$ cd ~/PROJEKTY/GACR1012/compare $ compare-vert tag-table.txt < file
$ compare-vert Usage: compare-vert [-CDFX] <table> -C color output CYAN: forms differ GREEN: lemmas differ, BLUE: general tag (>) MAGENTA: detailed tag (<) RED: tags differ (!) -D debug -F full output (including identical lines) -X ignore unknown tags <table> is a table with differences between tagsets: // 0 - POS // 1 - SUBPOS = > n,l // 2 - GENDER H > F,N QW > FS,NP etc. In the output, lines with differencies are marked as follows: > more general tag on the left side < more general tag on the right side ~ both more and less general tags on both sides ! tags differ and cannot be compared | identical tags
Porovnávání 3 tagů
Sloučení výsledků
- vert
$ cd ~/PROJEKTY/GACR1012/compare $ vert-vert-vert.sh merge/<file> anotatori/<file>-<A1> anotatori/<file>-<A2> \ > cmp-3input/<file>-<A1>-<A2>
Porovnání tagů
- použít program
compare-3vert
$ cd ~/PROJEKTY/GACR1012/compare $ compare-3vert tag-table.txt < file
Porovnání mnoha tagů ze 2 zdrojů
Sloučení výsledků
- vert
$ cd ~/PROJEKTY/GACR1012/compare $ paste merge/<file> <pref>/<file> | perl -pe 's/^[\t]+$//' > cmp-Minput/<pref>-<file>
<pref>
jemorf
,rules
apod.- porovnat programem
compare-Mvert
$ cd ~/PROJEKTY/GACR1012/compare $ compare-Mvert tag-table.txt < cmp-Minput/<file>
$ compare-Mvert Usage: compare-Mvert [-CF] <table> -C color output -F full output (including identical lines) <table> is a table with differences between tagsets: // 0 - POS // 1 - SUBPOS = > n,l // 2 - GENDER H > F,N QW > FS,NP etc. In the output, lines with differencies are marked with >!<