====== Tokenizace textů z 19. století ======

  * Pokud text obsahuje mark-up, který se má zachovat, použijeme nejdřív skript ''/usr/local/diacorp/Perl/StrukturniZnacky_NaEntity.pl'' (na grimmovi).
  * Provedeme morfologickou analýzu, převedeme do ''vert'' a ponecháme pouze první sloupec.
  * Potřebujeme zvláštní soubor se zkratkami. v ''/usr/local/langr/rules/src'' je soubor ''abbrevs.txt''. Jde o link buď na ''abbrevs-dia.txt'' nebo na ''abbrevs-syn.txt''. Po úpravě zkratek zkontrolujeme/změníme link, zkompilujeme ''LEXy'' a slovníky pro 19. stol. přejmenujeme na ''LEX_<enc>_dia''.
  * Výsledek je ještě třeba upravit a opravit.
  * Postup:<code>cd /store/corp/Starocesi/19stol/Tokenizace
make-corp.sh -Eucs2 -M -p45 -s in-utf8 -t csts-morf -X /usr/local/corp/LEX_ucs2_dia -v
make-corp.sh -s csts-morf -t vert-morf
parallel-filter.sh -C "cut -f1 | sed '1{/^$/d}' | dia-normalize-vert.pl" \
-s vert-morf -t vert-morf-tok -p10 -v</code>
  * Soubor ''dia-normalize-vert.pl'' odstraňuje entity a opravuje některé chyby v segmentaci/tokenizaci.
  * V případě potřeby se opět vrátí mark-up programem ''/usr/local/diacorp/Perl/Entity_na_strukturni_znacky.pl''.