====== Sjednocení formátu anotovaných korpusů ======
===== Úprava ručně anotovaných textů =====
* převést do vertikály s jedním lemmatem a tagem:$ cd .../korpus-export
$ for ff in *; do echo $ff; prep-for-tag-comparison.sh < $ff \
> ../../compare/anotatori/$ff; done
* podobně u opravených (mergeovaných) souborů:$ cd .../merge-export
$ prep-for-tag-comparison.sh < -XX-YY > ../../compare/merge/
===== Úprava textů anotovaných pravidly (morfologií, ...) =====
* znormalizovat, post-disamb a odstranit duplicity:$ cd /corp/anotace/vert-rules-frazrl-rules
$ for ff in *; do echo $ff; rules-for-tag-comparison.sh < $ff \
> ~/PROJEKTY/GACR1012/compare/rules/$ff; done
===== Úprava automaticky tagovaných korpusů (pravidly + morčetem) =====
* provést některé postdisambiguační kroky:$ cd .../korpus-export
$ for ff in *; do echo ${ff%-??}; rules-for-tag-comparison.sh \
< /corp/anotace/vert-rules-frazrl-rulh1-tag/${ff%-??} \
> ../../compare/corp/${ff%-??}; done
===== Úprava korpusů otagovaných morčetem =====
* zkopírovat soubory:$ cd .../korpus-export
$ for ff in *; do echo ${ff%-??};
cat -s /corp/anotace/vert-morf-tag/${ff%-??} \
| post-disamb.pl \
> ../../compare/morce/${ff%-??}; done
===== Výběr pouze nejednoznačných tagů =====
* $ cd ~/PROJEKTY/GACR1012/comp-PDT/morf
$ for ff in *; do echo $ff; mark-uniq < $ff | paste ../PDT/$ff - \
| grep -v '!!!' | cut -f1-2 > ../multi-morf/PDT/$ff; done
$ cd /corp/DTEST-PDT/vert-morf-full
$ for ff in *; do echo $ff; mark-uniq < $ff \
| paste ~/PROJEKTY/GACR1012/comp-PDT/PDT/$ff - \
| grep -v '!!!' | cut -f1-2 > ~/PROJEKTY/GACR1012/comp-PDT/multi-full/PDT/$ff; done
====== Porovnávání 2 tagů ======
===== Sloučení výsledků =====
* vert$ cd ~/PROJEKTY/GACR1012/compare/anotatori
$ for ff in *; do echo $ff; vert-vert.sh $ff ../corp/${ff%-??} corp-; done
* program ''vert-vert.sh'' má jako třetí nepovinný argument předponu výsledného souboru
===== Porovnání tagů =====
* použít program ''compare-vert''$ cd ~/PROJEKTY/GACR1012/compare
$ compare-vert tag-table.txt < file
$ compare-vert
Usage: compare-vert [-CDFX]
-C color output
CYAN: forms differ
GREEN: lemmas differ,
BLUE: general tag (>)
MAGENTA: detailed tag (<)
RED: tags differ (!)
-D debug
-F full output (including identical lines)
-X ignore unknown tags
is a table with differences between tagsets:
// 0 - POS
// 1 - SUBPOS
= > n,l
// 2 - GENDER
H > F,N
QW > FS,NP
etc.
In the output, lines with differencies are marked as follows:
> more general tag on the left side
< more general tag on the right side
~ both more and less general tags on both sides
! tags differ and cannot be compared
| identical tags
====== Porovnávání 3 tagů ======
===== Sloučení výsledků =====
* vert$ cd ~/PROJEKTY/GACR1012/compare
$ vert-vert-vert.sh merge/ anotatori/- anotatori/- \
> cmp-3input/--
===== Porovnání tagů =====
* použít program ''compare-3vert''$ cd ~/PROJEKTY/GACR1012/compare
$ compare-3vert tag-table.txt < file
====== Porovnání mnoha tagů ze 2 zdrojů ======
===== Sloučení výsledků =====
* vert$ cd ~/PROJEKTY/GACR1012/compare
$ paste merge/ / | perl -pe 's/^[\t]+$//' > cmp-Minput/-
* '''' je ''morf'', ''rules'' apod.
* porovnat programem ''compare-Mvert''$ cd ~/PROJEKTY/GACR1012/compare
$ compare-Mvert tag-table.txt < cmp-Minput/
$ compare-Mvert
Usage: compare-Mvert [-CF]
-C color output
-F full output (including identical lines)
is a table with differences between tagsets:
// 0 - POS
// 1 - SUBPOS
= > n,l
// 2 - GENDER
H > F,N
QW > FS,NP
etc.
In the output, lines with differencies are marked with >!<