3 3 Nm C=------------- 1
) ) Zz Z:------------- 1
Rut Rut Nn NNMS1-----A---- 1
v jednom ohromném souboru.
* Na ''grimmovi'' máme adresář ''/store/corp/MDA'', ve kterém děláme další podadresáře (např. ''aranea'').
* Text nasekáme na ''chunky'':cd aranea/chunks
split-chunk.pl < ../vertikala
* Ponecháme pouze první sloupec a převedeme do csts:
parallel-filter.sh -C "cut -f1 | perl -pe 's/^<$/</' | perl -pe 's/^>$/>/' \
| perl -pe 's/\.\.[\.]*/&whellip;/g' | perl -pe 's/(…)+/…/g' \
| perl -pe 's/\-\-\-[\-]*/‐/g' | perl -pe 's/\!\![\!]*/&exclam;/g' \
| perl -pe 's/\?\?[\?]*/&question;/g' | perl -pe 's/sssss+/sssss/g' \
| perl -pe 'undef $/; s:\n \n\xc2\x9d:ť:g' | perl -pe 'undef $/; s:\n\x7f::g' \
| perl -pe 'undef $/; s:\n\xc2\x81::g' | perl -pe 'undef $/; s:\n\xc2\x8d::g' \
| perl -pe 'undef $/; s:\n\xc2\x8f::g' | perl -pe 'undef $/; s:\n\xf0\x9f\x91\xa1::g' \
| perl -pe 'undef $/; s:\n\xe2\x9c\x8c::g' | vert_csts.pl | fgrep -v '' | perl -pe 's: ::' \
| perl -pe 's#>https?://.*#>&url;#g' | perl -pe 'undef $/; s/\n\n\n/\n/'" \
-p45 -s chunks -t csts -v
* Provedeme samotnou morfologii:make-corp.sh -s csts -t csts-morf -Eucs2 -A0 -B0 -M -p45 -v
(tohle můžeme provést na ''frozen'' verzi).
* Provedeme zbytek taggingu:screen make-whole-corp-csts.sh -Eucs2 -M -v -p45 -trules
* Označíme kolokace:screen make-kolok-csts.sh -Eucs2 -k. -p45 -v
* Průběžně provádíme kontroly:cmp-lines-csts.sh csts csts-kolok
parallel-filter.sh -n -C "check-csts.pl 16" -p45 -s csts-kolok
* Převedeme ''csts'' zpět do vertikály s mark-upem:
parallel-filter.sh -C "perl -pe 'undef $/; s:\n(.*\n)+\n::' \
| perl -pe 'undef $/; s:?csts[^\n]+\n::g' | perl -pe 'undef $/; s:?doc>\n::g' \
| perl -pe 'undef $/; s:?c>\n::g' | perl -pe 's/<[fd][^>]*>//' | perl -pe 's//\t/g' \
| perl -pe 's:: :'" -p45 -s csts-kolok -t chunks-kolok