Aranea
Návod na výrobu českého korpusus Aranea pro Vlada Benka.
- zkontrolovat/opravit UTF-8
cd orig for ff in *; do echo $ff; iconv -c -f UTF-8 -t UTF8 < $ff |\ sed 's/\xEF\xBB\xBF//g'> ../data/$ff; done
- spravit zkratky pomocí souboru
zkratky.txt
cd data for ff in *; do echo $ff; for zz in $(cat ../zkratky.txt); do \ perl -i -pe "undef $/; s:\n($zz)\n<g/>\n\.:\n$zz.:g" $ff; done; done
(vyzkoušet!!!)
- slepit čísla
for ff in *; do echo $ff; \ perl -i -pe 'undef $/; s:\n(\-?[0-9][0-9]*\.?)\n<g/>([0-9]):\n$1$2:g' $ff; done
(vyzkoušet!!!)
- nahradit
<g/>
entitou&glue;
for ff in *; do echo $ff; \ perl -i -pe 's:<g/>:&glue;:' $ff; done
- vyházet prázdné řádky, věty a odstavce
for ff in *; do echo $ff; \ perl -i -pe 'undef $/; s/\n\n+/\n/g' $ff; \ perl -i -pe 'undef $/; s:<s>\n</s>\n::g' $ff; \ perl -i -pe 'undef $/; s:<p>\n</p>\n::g' $ff; done
- udělat
csts
for ff in *; do echo $ff; csts-tok4-utf.pl < $ff > ../csts/$ff; done
entity&del;
označit jako<d>
cd ../csts for ff in $(grep -l '<f>&' *); do echo $ff; perl -i -pe 's/<f>&/<d>&/' $ff; done
- většítka nahradit entitou
for ff in *; do echo $ff; perl -i -pe 's/<d>>/<d>>/' $ff; done
- odstranit přebytečná většítka/menšítka
grep -l ">.*[<>]" * |\ parallel -q perl -i.bak -pe 's/(>[^><]*)[><].*/$1/' {}
- slepit data
for ff in *; do echo $ff; \ perl -i -pe 'undef $/; s/(<f num>[0-9\.]*)\n<d>&glue;\n<d>(\.[0-9][0-9]*)\n/$1$2\n/g' $ff; done
- nasekat dlouhé věty na kratší
for ff in *; do echo $ff; \ perl -i.bak -pe \ 'undef $/; s:(<d>[\.\;\:])\n(<f>[A-ZÁČĎÉŠŽŘŤÚŇÍÓ][a-zěščřžýáíéóúůďťň\n]):$1\n</s>\n<s aux="1">\n$2:g' \ $ff; done