Segmentace nového českého textu

Tento návod popisuje, jak nasegmentovat na věty český text, který se teprve pořizuje a není dosud s ničím zarovnán. Text dostaneme v jednoduchém XML, tzn. že jsou vyznačeny pouze odstavce (<p>) a řezy písma:

<p>"Ale Julesi," řekla maminka, "vždyť on to jistě řekl z legrace."</p>
<p>"<i>Z legrace </i>?" vykřikl strýc. "To by bylo ještě horší...! Raději chci věřit, že neporozuměl mé otázce."</p>
<p>Obrátil se ke mně.</p>

Možný problém je, že řezy písma jsou vloženy chybně (přes značky <p>).

Je-li XML v pořádku, provedeme tuto posloupnost příkazů: