Tokenizace textů z 19. století
- Pokud text obsahuje mark-up, který se má zachovat, použijeme nejdřív skript
/usr/local/diacorp/Perl/StrukturniZnacky_NaEntity.pl
(na grimmovi). - Provedeme morfologickou analýzu, převedeme do
vert
a ponecháme pouze první sloupec. - Potřebujeme zvláštní soubor se zkratkami. v
/usr/local/langr/rules/src
je souborabbrevs.txt
. Jde o link buď naabbrevs-dia.txt
nebo naabbrevs-syn.txt
. Po úpravě zkratek zkontrolujeme/změníme link, zkompilujemeLEXy
a slovníky pro 19. stol. přejmenujeme naLEX_<enc>_dia
. - Výsledek je ještě třeba upravit a opravit.
- Postup:
cd /store/corp/Starocesi/19stol/Tokenizace make-corp.sh -Eucs2 -M -p45 -s in-utf8 -t csts-morf -X /usr/local/corp/LEX_ucs2_dia -v make-corp.sh -s csts-morf -t vert-morf parallel-filter.sh -C "cut -f1 | sed '1{/^$/d}' | dia-normalize-vert.pl" \ -s vert-morf -t vert-morf-tok -p10 -v
- Soubor
dia-normalize-vert.pl
odstraňuje entity a opravuje některé chyby v segmentaci/tokenizaci. - V případě potřeby se opět vrátí mark-up programem
/usr/local/diacorp/Perl/Entity_na_strukturni_znacky.pl
.