====== Výroba korpusů z vertikály ======
===== Vertikála s mark-upem =====
* Vyrobíme adresář ''original'', do kterého umístíme zdrojové soubory
* Vyrobíme adresář ''csts'', do kterého umístíme vertikálu převedenou do csts
* Pro originál v ''UTF-8'':
cut -f1 | vert_csts_simple.pl
* Pro originál v ISO-Latin-2:
cut -f1 | cstocs il2 utf8 | vert_csts_simple.pl
* Analogicky pro další kódování
* Sjedeme pouze morfologii a pouze s povinnými skripty z PreMorfo a PostMorfo (nejlépe nějakým ''frozen'' stavem):
make-corp.sh -A1 -B1 -Eucs2 -M -p45 -s csts -t csts-morf -v
* Dorazíme zbytek (opět pouze s povinnými PostDisambVid):
make-whole-corp-csts.sh -Eucs2 -M -C1 -f -p45 -trules -v
* Vertikálu vyrobíme skriptem ''csts_vert_simple.pl'':
mkdir vert-corr
sts_vert_simple.pl < csts-rules-frazrl-rulh1-tag-vid-corr/ > vert-corr/
===== Porovnání dvou verzí - výroba korpusu =====
* Máme dvě stejně natokané vertikály, případně i se sloupcem ''src'' a mark-upem
* Vytvoříme adresář ''vert-Srovnani'' a v něm vytvoříme sloučenou vertikálu:
paste original-utf8/vertikala_v2 <(cut -f2- vert-corr/) | perl -pe 's/[\t]+<.*$//' |\
compare-old-new-tagging.pl > vert-Srovnani/
* Vertikála obsahuje tyto sloupce:
* **word**
* **o_lemma**
* **o_tag**
* **n_lemma**
* **n_tag**
* **src** (pro n_lemma a n_tag)
* **shoda**:
* **A**ll
* **L**emma
* **T**ag
* **-**
* **detail** (vyznačení pozic, na kterých se tagy liší):
* **+** na libovolné pozici znamená shodu
- **P**art-of-speech
- **G**ender
- **N**umber
- **C**ase
- p**E**rson
- **V**ariant (15. pozice)
- **A**spect
* Korpus pak vyrobíme obvyklým způsobem (na chomském):
manatee-registry.sh -c. -f vert-Srovnani -C
a na jakobsonovi spustíme ''nosketch-registry.sh'':
nosketch-registry.sh /net/chomsky/store/manatee-registry/