Wiki spuštěna 24. 7. 2025

Tokenizace textů z 19. století

  • Pokud text obsahuje mark-up, který se má zachovat, použijeme nejdřív skript /usr/local/diacorp/Perl/StrukturniZnacky_NaEntity.pl (na grimmovi).
  • Provedeme morfologickou analýzu, převedeme do vert a ponecháme pouze první sloupec.
  • Potřebujeme zvláštní soubor se zkratkami. v /usr/local/langr/rules/src je soubor abbrevs.txt. Jde o link buď na abbrevs-dia.txt nebo na abbrevs-syn.txt. Po úpravě zkratek zkontrolujeme/změníme link, zkompilujeme LEXy a slovníky pro 19. stol. přejmenujeme na LEX_<enc>_dia.
  • Výsledek je ještě třeba upravit a opravit.
  • Postup:
    cd /store/corp/Starocesi/19stol/Tokenizace
    make-corp.sh -Eucs2 -M -p45 -s in-utf8 -t csts-morf -X /usr/local/corp/LEX_ucs2_dia -v
    make-corp.sh -s csts-morf -t vert-morf
    parallel-filter.sh -C "cut -f1 | sed '1{/^$/d}' | dia-normalize-vert.pl" \
    -s vert-morf -t vert-morf-tok -p10 -v
  • Soubor dia-normalize-vert.pl odstraňuje entity a opravuje některé chyby v segmentaci/tokenizaci.
  • V případě potřeby se opět vrátí mark-up programem /usr/local/diacorp/Perl/Entity_na_strukturni_znacky.pl.

QR Code
QR Code wiki:user:skoumal:dia:tokenizace (generated for current page)