====== Výroba korpusů z vertikály ====== ===== Vertikála s mark-upem ===== * Vyrobíme adresář ''original'', do kterého umístíme zdrojové soubory * Vyrobíme adresář ''csts'', do kterého umístíme vertikálu převedenou do csts * Pro originál v ''UTF-8'': cut -f1 | vert_csts_simple.pl * Pro originál v ISO-Latin-2: cut -f1 | cstocs il2 utf8 | vert_csts_simple.pl * Analogicky pro další kódování * Sjedeme pouze morfologii a pouze s povinnými skripty z PreMorfo a PostMorfo (nejlépe nějakým ''frozen'' stavem): make-corp.sh -A1 -B1 -Eucs2 -M -p45 -s csts -t csts-morf -v * Dorazíme zbytek (opět pouze s povinnými PostDisambVid): make-whole-corp-csts.sh -Eucs2 -M -C1 -f -p45 -trules -v * Vertikálu vyrobíme skriptem ''csts_vert_simple.pl'': mkdir vert-corr sts_vert_simple.pl < csts-rules-frazrl-rulh1-tag-vid-corr/ > vert-corr/ ===== Porovnání dvou verzí - výroba korpusu ===== * Máme dvě stejně natokané vertikály, případně i se sloupcem ''src'' a mark-upem * Vytvoříme adresář ''vert-Srovnani'' a v něm vytvoříme sloučenou vertikálu: paste original-utf8/vertikala_v2 <(cut -f2- vert-corr/) | perl -pe 's/[\t]+<.*$//' |\ compare-old-new-tagging.pl > vert-Srovnani/ * Vertikála obsahuje tyto sloupce: * **word** * **o_lemma** * **o_tag** * **n_lemma** * **n_tag** * **src** (pro n_lemma a n_tag) * **shoda**: * **A**ll * **L**emma * **T**ag * **-** * **detail** (vyznačení pozic, na kterých se tagy liší): * **+** na libovolné pozici znamená shodu - **P**art-of-speech - **G**ender - **N**umber - **C**ase - p**E**rson - **V**ariant (15. pozice) - **A**spect * Korpus pak vyrobíme obvyklým způsobem (na chomském): manatee-registry.sh -c. -f vert-Srovnani -Ca na jakobsonovi spustíme ''nosketch-registry.sh'': nosketch-registry.sh /net/chomsky/store/manatee-registry/