====== Aranea ====== Návod na výrobu českého korpusus Aranea pro Vlada Benka. * zkontrolovat/opravit UTF-8

cd orig
for ff in *; do echo $ff; iconv -c -f UTF-8 -t UTF8 < $ff |\
sed 's/\xEF\xBB\xBF//g'> ../data/$ff; done

* spravit zkratky pomocí souboru ''zkratky.txt''

cd data
for ff in *; do echo $ff; for zz in $(cat ../zkratky.txt); do \
perl -i -pe "undef $/; s:\n($zz)\n\n\.:\n$zz.:g" $ff; done; done

(vyzkoušet!!!) * slepit čísla

for ff in *; do echo $ff; \
perl -i -pe 'undef $/; s:\n(\-?[0-9][0-9]*\.?)\n([0-9]):\n$1$2:g' $ff; done

(vyzkoušet!!!) * nahradit '''' entitou ''&glue;''

for ff in *; do echo $ff; \
perl -i -pe 's::&glue;:' $ff; done

* vyházet prázdné řádky, věty a odstavce

for ff in *; do echo $ff; \
perl -i -pe 'undef $/; s/\n\n+/\n/g' $ff; \
perl -i -pe 'undef $/; s:\n\n::g' $ff; \
perl -i -pe 'undef $/; s:\n
\n::g' $ff; done

* udělat ''csts''for ff in *; do echo $ff; csts-tok4-utf.pl < $ff > ../csts/$ff; done * ~~entity ''&del;'' označit jako ''''~~

cd ../csts
for ff in $(grep -l '&' *); do echo $ff; perl -i -pe 's/&/&/' $ff; done

* většítka nahradit entitoufor ff in *; do echo $ff; perl -i -pe 's/>/>/' $ff; done * odstranit přebytečná většítka/menšítka

grep -l ">.*[<>]" * |\
parallel -q perl -i.bak -pe 's/(>[^><]*)[><].*/$1/' {}

* slepit data

for ff in *; do echo $ff; \
perl -i -pe 'undef $/; s/([0-9\.]*)\n&glue;\n(\.[0-9][0-9]*)\n/$1$2\n/g' $ff; done

* nasekat dlouhé věty na kratší

for ff in *; do echo $ff; \
perl -i.bak -pe \
'undef $/; s:([\.\;\:])\n([A-ZÁČĎÉŠŽŘŤÚŇÍÓ][a-zěščřžýáíéóúůďťň\n]):$1\n\n\n$2:g' \
$ff; done