Wiki spuštěna 24. 7. 2025

Aranea

Návod na výrobu českého korpusus Aranea pro Vlada Benka.

  • zkontrolovat/opravit UTF-8
    cd orig
    for ff in *; do echo $ff; iconv -c -f UTF-8 -t UTF8 < $ff |\
    sed 's/\xEF\xBB\xBF//g'> ../data/$ff; done
  • spravit zkratky pomocí souboru zkratky.txt
    cd data
    for ff in *; do echo $ff; for zz in $(cat ../zkratky.txt); do \
    perl -i -pe "undef $/; s:\n($zz)\n<g/>\n\.:\n$zz.:g" $ff; done; done

    (vyzkoušet!!!)

  • slepit čísla
    for ff in *; do echo $ff; \
    perl -i -pe 'undef $/; s:\n(\-?[0-9][0-9]*\.?)\n<g/>([0-9]):\n$1$2:g' $ff; done

    (vyzkoušet!!!)

  • nahradit <g/> entitou &glue;
    for ff in *; do echo $ff; \
    perl -i -pe 's:<g/>:&glue;:' $ff; done
  • vyházet prázdné řádky, věty a odstavce
    for ff in *; do echo $ff; \
    perl -i -pe 'undef $/; s/\n\n+/\n/g' $ff; \
    perl -i -pe 'undef $/; s:<s>\n</s>\n::g' $ff; \
    perl -i -pe 'undef $/; s:<p>\n</p>\n::g' $ff; done
  • udělat csts
    for ff in *; do echo $ff; csts-tok4-utf.pl < $ff > ../csts/$ff; done
  • entity &del; označit jako <d>
    cd ../csts
    for ff in $(grep -l '<f>&' *); do echo $ff; perl -i -pe 's/<f>&/<d>&/' $ff; done
  • většítka nahradit entitou
    for ff in *; do echo $ff; perl -i -pe 's/<d>>/<d>&gt;/' $ff; done
  • odstranit přebytečná většítka/menšítka
    grep -l ">.*[<>]" * |\
    parallel -q perl -i.bak -pe 's/(>[^><]*)[><].*/$1/' {}
  • slepit data
    for ff in *; do echo $ff; \
    perl -i -pe 'undef $/; s/(<f num>[0-9\.]*)\n<d>&glue;\n<d>(\.[0-9][0-9]*)\n/$1$2\n/g' $ff; done
  • nasekat dlouhé věty na kratší
    for ff in *; do echo $ff; \
    perl -i.bak -pe \
    'undef $/; s:(<d>[\.\;\:])\n(<f>[A-ZÁČĎÉŠŽŘŤÚŇÍÓ][a-zěščřžýáíéóúůďťň\n]):$1\n</s>\n<s aux="1">\n$2:g' \
    $ff; done

QR Code
QR Code wiki:user:skoumal:infra:aranea (generated for current page)