====== Segmentace nového českého textu ====== Tento návod popisuje, jak nasegmentovat na věty **český** text, který se teprve pořizuje a není dosud s ničím zarovnán. Text dostaneme v //jednoduchém// ''XML'', tzn. že jsou vyznačeny pouze odstavce (''

'') a řezy písma:

"Ale Julesi," řekla maminka, "vždyť on to jistě řekl z legrace."

"Z legrace ?" vykřikl strýc. "To by bylo ještě horší...! Raději chci věřit, že neporozuměl mé otázce."

Obrátil se ke mně.

Možný problém je, že řezy písma jsou vloženy chybně (přes značky ''

''). Je-li ''XML'' v pořádku, provedeme tuto posloupnost příkazů: * Z ''XML'' dostaneme text:xml2standoff.py .xml * Provedeme tokenizaci a napravíme konce vět:run_tokenizer --tokenizer=czech --output=vertical \ < .txt | no_space_after_token_morphanal.pl .txt /dev/null | perl -pe 's/^

$//' | cut -f1 | cat -s \ > .vrt * ''VRT'' soubor, který jsme dostali, převedeme zase do ''XML'':vrt2standoff.py .vrt standoff2xml.py .txt perl -i -pe 's:::g' .merged.xml perl -i -pe 's:()[ ]*():$1\n$2:g' .merged.xml