Wiki spuštěna 24. 7. 2025

Tagování textů z 19. století

  • Texty jsou v “ČNK vertikále” na trnkovi v adresáři /cnk/common/korpus/vertikaly/DIA_v0/vertikala.
  • Na grimmovi máme adresář /store/corp/Starocesi/19stol.
  • Odstraníme další sloupce:
    cut -f1 vertikala > vertikala.cut
  • Nasekáme na jednotlivé texty:
    splitdoc-xml text < vertikala.cut
  • Upravíme jména souborů:
    for ff in text.*; do gg=$(echo $ff|perl -pe 's/\.00/./'); echo $gg; mv $ff $gg; done
  • Převedeme do csts:
    mkdir ../csts
    for ff in text*; do echo $ff; vert_csts.pl < $ff > ../csts/$ff; done

    a spravíme ho:

    cd ../csts
    for ff in *; do echo $ff; perl -i -pe 'undef $/; s/<s>\n(<doc)/$1/' $ff; done
    for ff in *; do echo $ff; perl -i -pe 'undef $/; s/<doc>\n//' $ff; done
    for ff in *; do echo $ff; perl -i -pe 'undef $/; s:</doc>\n(</csts>):$1:' $ff; done
  • Provedeme morfologii a pak zbytek:frozen 201802-hybrid
    make-corp.sh -Eucs2 -s csts -t csts-morf -A1 -B1 -p45 -v -M
    make-whole-corp-csts.sh -Eucs2 -f -M -p45 -trules -v

    V nejnovějším PostMorfo jsou doplněná slovíčka a LEX je zkompilovaný i s přidanými tagy.

  • Převedeme do vertikály:
    parallel-filter.sh -C "csts2cnk.pl | perl -pe 's/(<doc.*>)-$/\$1/'" -p45 \
    -s csts-rules-frazrl-rulh1-tag-vid-corr -t vert-corr -v
    cd vert-corr
    for ff in *; do echo "</doc>" >> $ff; done
  • Zkontrolujeme řádky:
    for ff in *; do echo $ff; sdiff -s <(cut -f1 $ff) ../orig/$ff; done | l
  • Pokud souhlasí počet, ale ve formách jsou rozdíly, vyměníme formy:
    for ff in *; do cut -f2- $ff > $ff.2-; done
    for ff in *.2-; do paste ../orig/${ff%.2-} $ff | perl -pe 's/\t<.*//' > ${ff%.2-}; done
    rm *.2-
  • A znovu pro jistotu zkontrolujeme

QR Code
QR Code wiki:user:skoumal:infra:dia:19stol (generated for current page)