Table of Contents

Návod na výrobu korpusu hybridem

Tento návod se týká korpusů do SYNv8 včetně.

Skript na odstranění XML značek

make-whole-corp-csts.sh

Podrobný popis jednotlivých kroků

  1. Morfologie
    • PreMorfo
    • Vlastní morfologie
    • PostMorfo
    • remove-dupl-csts-mark.pl M
  2. Pravidla: v prvním kroku označí negramatické kolokace.
    • root0
    • sed
    • remove-dupl-csts-mark.pl 0
  3. FRAZRL: používají se programy a tabulky v adresáři $FRAZRL_PREFIX/FRAZRL
    • c4001a_dis_vetne_csts.x a c4001a_dis_fraz_csts.x
    • remove-dupl-csts-mark-wrapper.pl:
      • remove-dupl-csts-mark.pl
      • normalize
  4. Pravidla
    • root (root0 + root1)
    • sed
    • remove-dupl-csts-mark.pl 1
  5. Heuristika
    • [normalize]
    • disheu1
    • sed
    • remove1314.pl
    • remove-dupl-csts-mark.pl h
  6. Tagger
    • [normalize]???
    • featurama
    • sed
    • negr_kolokace_csts_ucs2.pl
    • označení pachatele
  7. Vidy
  8. Závěrečné úpravy

Průběžné kontroly výsledku

Závěrečné [ú|o]pravy

Vrácení XML do výsledku a příprava vertikály pro Bonito

Vrácení XML

Kontrola souborů, které neprošly

Příprava textů pro manatee

Přidání kolokací a syntaxe