Table of Contents
Výroba korpusů z vertikály
Vertikála s mark-upem
- Vyrobíme adresář
original
, do kterého umístíme zdrojové soubory - Vyrobíme adresář
csts
, do kterého umístíme vertikálu převedenou do csts- Pro originál v
UTF-8
:cut -f1 <vertikala> | vert_csts_simple.pl
- Pro originál v ISO-Latin-2:
cut -f1 <vertikala> | cstocs il2 utf8 | vert_csts_simple.pl
- Analogicky pro další kódování
- Sjedeme pouze morfologii a pouze s povinnými skripty z PreMorfo a PostMorfo (nejlépe nějakým
frozen
stavem):make-corp.sh -A1 -B1 -Eucs2 -M -p45 -s csts -t csts-morf -v
- Dorazíme zbytek (opět pouze s povinnými PostDisambVid):
make-whole-corp-csts.sh -Eucs2 -M -C1 -f -p45 -trules -v
- Vertikálu vyrobíme skriptem
csts_vert_simple.pl
:mkdir vert-corr sts_vert_simple.pl < csts-rules-frazrl-rulh1-tag-vid-corr/<file> > vert-corr/<file>
Porovnání dvou verzí - výroba korpusu
- Máme dvě stejně natokané vertikály, případně i se sloupcem
src
a mark-upem - Vytvoříme adresář
vert-Srovnani
a v něm vytvoříme sloučenou vertikálu:paste original-utf8/vertikala_v2 <(cut -f2- vert-corr/<file>) | perl -pe 's/[\t]+<.*$//' |\ compare-old-new-tagging.pl > vert-Srovnani/<file>
- Vertikála obsahuje tyto sloupce:
- word
- o_lemma
- o_tag
- n_lemma
- n_tag
- src (pro n_lemma a n_tag)
- shoda:
- All
- Lemma
- Tag
- -
- detail (vyznačení pozic, na kterých se tagy liší):
- + na libovolné pozici znamená shodu
- Part-of-speech
- Gender
- Number
- Case
- pErson
- Variant (15. pozice)
- Aspect
- Korpus pak vyrobíme obvyklým způsobem (na chomském):
manatee-registry.sh -c. -f vert-Srovnani -C
a na jakobsonovi spustíme
nosketch-registry.sh
:nosketch-registry.sh /net/chomsky/store/manatee-registry/<korpus>