Wiki spuštěna 24. 7. 2025

Výroba korpusů z vertikály

Vertikála s mark-upem

  • Vyrobíme adresář original, do kterého umístíme zdrojové soubory
  • Vyrobíme adresář csts, do kterého umístíme vertikálu převedenou do csts
    • Pro originál v UTF-8:
      cut -f1 <vertikala> | vert_csts_simple.pl
    • Pro originál v ISO-Latin-2:
      cut -f1 <vertikala> | cstocs il2 utf8 | vert_csts_simple.pl
    • Analogicky pro další kódování
  • Sjedeme pouze morfologii a pouze s povinnými skripty z PreMorfo a PostMorfo (nejlépe nějakým frozen stavem):
    make-corp.sh -A1 -B1 -Eucs2 -M -p45 -s csts -t csts-morf -v
  • Dorazíme zbytek (opět pouze s povinnými PostDisambVid):
    make-whole-corp-csts.sh -Eucs2 -M -C1 -f -p45 -trules -v
  • Vertikálu vyrobíme skriptem csts_vert_simple.pl:
    mkdir vert-corr
    sts_vert_simple.pl < csts-rules-frazrl-rulh1-tag-vid-corr/<file> > vert-corr/<file>

Porovnání dvou verzí - výroba korpusu

  • Máme dvě stejně natokané vertikály, případně i se sloupcem src a mark-upem
  • Vytvoříme adresář vert-Srovnani a v něm vytvoříme sloučenou vertikálu:
    paste original-utf8/vertikala_v2 <(cut -f2- vert-corr/<file>) | perl -pe 's/[\t]+<.*$//' |\
    compare-old-new-tagging.pl > vert-Srovnani/<file>
  • Vertikála obsahuje tyto sloupce:
    • word
    • o_lemma
    • o_tag
    • n_lemma
    • n_tag
    • src (pro n_lemma a n_tag)
    • shoda:
      • All
      • Lemma
      • Tag
      • -
    • detail (vyznačení pozic, na kterých se tagy liší):
      • + na libovolné pozici znamená shodu
      1. Part-of-speech
      2. Gender
      3. Number
      4. Case
      5. pErson
      6. Variant (15. pozice)
      7. Aspect
  • Korpus pak vyrobíme obvyklým způsobem (na chomském):
    manatee-registry.sh -c. -f vert-Srovnani -C

    a na jakobsonovi spustíme nosketch-registry.sh:

    nosketch-registry.sh /net/chomsky/store/manatee-registry/<korpus>

QR Code
QR Code wiki:user:skoumal:infra:vertikala (generated for current page)