Tento návod popisuje, jak nasegmentovat na věty český text, který se teprve pořizuje a není dosud s ničím zarovnán.
Text dostaneme v jednoduchém XML
, tzn. že jsou vyznačeny pouze odstavce (<p>
) a řezy písma:
<p>"Ale Julesi," řekla maminka, "vždyť on to jistě řekl z legrace."</p> <p>"<i>Z legrace </i>?" vykřikl strýc. "To by bylo ještě horší...! Raději chci věřit, že neporozuměl mé otázce."</p> <p>Obrátil se ke mně.</p>
Možný problém je, že řezy písma jsou vloženy chybně (přes značky <p>
).
Je-li XML
v pořádku, provedeme tuto posloupnost příkazů:
XML
dostaneme text:xml2standoff.py <soubor>.xml
run_tokenizer --tokenizer=czech --output=vertical \ < <soubor>.txt | no_space_after_token_morphanal.pl <soubor>.txt /dev/null | perl -pe 's/^<p>$//' | cut -f1 | cat -s \ > <soubor>.vrt
VRT
soubor, který jsme dostali, převedeme zase do XML
:vrt2standoff.py <soubor>.vrt standoff2xml.py <soubor>.txt perl -i -pe 's:</?w>::g' <soubor>.merged.xml perl -i -pe 's:(</s>)[ ]*(<s>):$1\n$2:g' <soubor>.merged.xml