====== Výroba korpusů z vertikály ====== ===== Vertikála s mark-upem ===== * Vyrobíme adresář ''original'', do kterého umístíme zdrojové soubory * Vyrobíme adresář ''csts'', do kterého umístíme vertikálu převedenou do csts * Pro originál v ''UTF-8'':


cut -f1  | vert_csts_simple.pl

* Pro originál v ISO-Latin-2:


cut -f1  | cstocs il2 utf8 | vert_csts_simple.pl

* Analogicky pro další kódování * Sjedeme pouze morfologii a pouze s povinnými skripty z PreMorfo a PostMorfo (nejlépe nějakým ''frozen'' stavem):


make-corp.sh -A1 -B1 -Eucs2 -M -p45 -s csts -t csts-morf -v

* Dorazíme zbytek (opět pouze s povinnými PostDisambVid):


make-whole-corp-csts.sh -Eucs2 -M -C1 -f -p45 -trules -v

* Vertikálu vyrobíme skriptem ''csts_vert_simple.pl'':


mkdir vert-corr
sts_vert_simple.pl < csts-rules-frazrl-rulh1-tag-vid-corr/ > vert-corr/

===== Porovnání dvou verzí - výroba korpusu ===== * Máme dvě stejně natokané vertikály, případně i se sloupcem ''src'' a mark-upem * Vytvoříme adresář ''vert-Srovnani'' a v něm vytvoříme sloučenou vertikálu:


paste original-utf8/vertikala_v2 <(cut -f2- vert-corr/) | perl -pe 's/[\t]+<.*$//' |\
compare-old-new-tagging.pl > vert-Srovnani/

* Vertikála obsahuje tyto sloupce: * **word** * **o_lemma** * **o_tag** * **n_lemma** * **n_tag** * **src** (pro n_lemma a n_tag) * **shoda**: * **A**ll * **L**emma * **T**ag * **-** * **detail** (vyznačení pozic, na kterých se tagy liší): * **+** na libovolné pozici znamená shodu - **P**art-of-speech - **G**ender - **N**umber - **C**ase - p**E**rson - **V**ariant (15. pozice) - **A**spect * Korpus pak vyrobíme obvyklým způsobem (na chomském):


manatee-registry.sh -c. -f vert-Srovnani -C

a na jakobsonovi spustíme ''nosketch-registry.sh'':


nosketch-registry.sh /net/chomsky/store/manatee-registry/