====== Tagování textů pro MDA ====== * Texty dostáváme s mark-upem

3 3 Nm C=------------- 1 ) ) Zz Z:------------- 1 Rut Rut Nn NNMS1-----A---- 1

v jednom ohromném souboru. * Na ''grimmovi'' máme adresář ''/store/corp/MDA'', ve kterém děláme další podadresáře (např. ''aranea''). * Text nasekáme na ''chunky'':cd aranea/chunks split-chunk.pl < ../vertikala * Ponecháme pouze první sloupec a převedeme do csts: parallel-filter.sh -C "cut -f1 | perl -pe 's/^<$/</' | perl -pe 's/^>$/>/' \ | perl -pe 's/\.\.[\.]*/&whellip;/g' | perl -pe 's/(…)+/…/g' \ | perl -pe 's/\-\-\-[\-]*/‐/g' | perl -pe 's/\!\![\!]*/&exclam;/g' \ | perl -pe 's/\?\?[\?]*/&question;/g' | perl -pe 's/sssss+/sssss/g' \ | perl -pe 'undef $/; s:\n\n\xc2\x9d:ť:g' | perl -pe 'undef $/; s:\n\x7f::g' \ | perl -pe 'undef $/; s:\n\xc2\x81::g' | perl -pe 'undef $/; s:\n\xc2\x8d::g' \ | perl -pe 'undef $/; s:\n\xc2\x8f::g' | perl -pe 'undef $/; s:\n\xf0\x9f\x91\xa1::g' \ | perl -pe 'undef $/; s:\n\xe2\x9c\x8c::g' | vert_csts.pl | fgrep -v '' | perl -pe 's:::' \ | perl -pe 's#>https?://.*#>&url;#g' | perl -pe 'undef $/; s/\n

\n\n/\n/'" \ -p45 -s chunks -t csts -v * Provedeme samotnou morfologii:make-corp.sh -s csts -t csts-morf -Eucs2 -A0 -B0 -M -p45 -v(tohle můžeme provést na ''frozen'' verzi). * Provedeme zbytek taggingu:screen make-whole-corp-csts.sh -Eucs2 -M -v -p45 -trules * Označíme kolokace:screen make-kolok-csts.sh -Eucs2 -k. -p45 -v * Průběžně provádíme kontroly:cmp-lines-csts.sh csts csts-kolok parallel-filter.sh -n -C "check-csts.pl 16" -p45 -s csts-kolok * Převedeme ''csts'' zpět do vertikály s mark-upem: parallel-filter.sh -C "perl -pe 'undef $/; s:\n(.*\n)+\n::' \ | perl -pe 'undef $/; s:\n::g' \ | perl -pe 'undef $/; s:\n::g' | perl -pe 's/<[fd][^>]*>//' | perl -pe 's//\t/g' \ | perl -pe 's:::'" -p45 -s csts-kolok -t chunks-kolok