cd orig
for ff in *; do echo $ff; iconv -c -f UTF-8 -t UTF8 < $ff |\
sed 's/\xEF\xBB\xBF//g'> ../data/$ff; done
* spravit zkratky pomocí souboru ''zkratky.txt''cd data
for ff in *; do echo $ff; for zz in $(cat ../zkratky.txt); do \
perl -i -pe "undef $/; s:\n($zz)\n \n\.:\n$zz.:g" $ff; done; done
(vyzkoušet!!!)
* slepit číslafor ff in *; do echo $ff; \
perl -i -pe 'undef $/; s:\n(\-?[0-9][0-9]*\.?)\n ([0-9]):\n$1$2:g' $ff; done
(vyzkoušet!!!)
* nahradit ''for ff in *; do echo $ff; \
perl -i -pe 's: :&glue;:' $ff; done
* vyházet prázdné řádky, věty a odstavcefor ff in *; do echo $ff; \
perl -i -pe 'undef $/; s/\n\n+/\n/g' $ff; \
perl -i -pe 'undef $/; s:\n\n::g' $ff; \
perl -i -pe 'undef $/; s:\n
\n::g' $ff; done
* udělat ''csts''for ff in *; do echo $ff; csts-tok4-utf.pl < $ff > ../csts/$ff; done
* cd ../csts
for ff in $(grep -l '&' *); do echo $ff; perl -i -pe 's/&/&/' $ff; done
* většítka nahradit entitoufor ff in *; do echo $ff; perl -i -pe 's/>/>/' $ff; done
* odstranit přebytečná většítka/menšítkagrep -l ">.*[<>]" * |\
parallel -q perl -i.bak -pe 's/(>[^><]*)[><].*/$1/' {}
* slepit datafor ff in *; do echo $ff; \
perl -i -pe 'undef $/; s/([0-9\.]*)\n&glue;\n(\.[0-9][0-9]*)\n/$1$2\n/g' $ff; done
* nasekat dlouhé věty na kratšífor ff in *; do echo $ff; \
perl -i.bak -pe \
'undef $/; s:([\.\;\:])\n([A-ZÁČĎÉŠŽŘŤÚŇÍÓ][a-zěščřžýáíéóúůďťň\n]):$1\n\n\n$2:g' \
$ff; done