====== Aranea ====== Návod na výrobu českého korpusus Aranea pro Vlada Benka. * zkontrolovat/opravit UTF-8cd orig for ff in *; do echo $ff; iconv -c -f UTF-8 -t UTF8 < $ff |\ sed 's/\xEF\xBB\xBF//g'> ../data/$ff; done * spravit zkratky pomocí souboru ''zkratky.txt''cd data for ff in *; do echo $ff; for zz in $(cat ../zkratky.txt); do \ perl -i -pe "undef $/; s:\n($zz)\n\n\.:\n$zz.:g" $ff; done; done(vyzkoušet!!!) * slepit číslafor ff in *; do echo $ff; \ perl -i -pe 'undef $/; s:\n(\-?[0-9][0-9]*\.?)\n([0-9]):\n$1$2:g' $ff; done(vyzkoušet!!!) * nahradit '''' entitou ''&glue;''for ff in *; do echo $ff; \ perl -i -pe 's::&glue;:' $ff; done * vyházet prázdné řádky, věty a odstavcefor ff in *; do echo $ff; \ perl -i -pe 'undef $/; s/\n\n+/\n/g' $ff; \ perl -i -pe 'undef $/; s:\n\n::g' $ff; \ perl -i -pe 'undef $/; s:

\n

\n::g' $ff; done
* udělat ''csts''for ff in *; do echo $ff; csts-tok4-utf.pl < $ff > ../csts/$ff; done * entity ''&del;'' označit jako ''''cd ../csts for ff in $(grep -l '&' *); do echo $ff; perl -i -pe 's/&/&/' $ff; done * většítka nahradit entitoufor ff in *; do echo $ff; perl -i -pe 's/>/>/' $ff; done * odstranit přebytečná většítka/menšítkagrep -l ">.*[<>]" * |\ parallel -q perl -i.bak -pe 's/(>[^><]*)[><].*/$1/' {} * slepit datafor ff in *; do echo $ff; \ perl -i -pe 'undef $/; s/([0-9\.]*)\n&glue;\n(\.[0-9][0-9]*)\n/$1$2\n/g' $ff; done * nasekat dlouhé věty na kratšífor ff in *; do echo $ff; \ perl -i.bak -pe \ 'undef $/; s:([\.\;\:])\n([A-ZÁČĎÉŠŽŘŤÚŇÍÓ][a-zěščřžýáíéóúůďťň\n]):$1\n\n\n$2:g' \ $ff; done