Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Both sides previous revision Předchozí verze Následující verze | Předchozí verze | ||
skript_man:navod_k_anotaci [2019/10/07 19:36] rosen [Opravy hranic slov] |
skript_man:navod_k_anotaci [2020/02/18 19:29] (aktuální) rosen [4.2. Postup] ??? - na @ort,@gram i @lex |
||
---|---|---|---|
Řádek 5: | Řádek 5: | ||
==== 1.1. Přihlášení do systému TEITOK ==== | ==== 1.1. Přihlášení do systému TEITOK ==== | ||
- | === 1.1.1. Projekt SKRIPT2015 === | + | === 1.1.1. Projekt Skript 2015 === |
Přihlásíme se svým emailem a heslem na adrese http://utkl.ff.cuni.cz/teitok/emendace/. | Přihlásíme se svým emailem a heslem na adrese http://utkl.ff.cuni.cz/teitok/emendace/. | ||
Nemáte-li přístupové údaje, napište si o ně. | Nemáte-li přístupové údaje, napište si o ně. | ||
Řádek 81: | Řádek 81: | ||
Naskenované rukopisy jsou přepsány do elektronické podoby a uloženy v TEITOKu ve formátu XML (úvod viz např. [[https://cs.wikipedia.org/wiki/Extensible_Markup_Language|heslo XML ve Wiki]]). TEITOK je zobrazuje, edituje, ukládá a prohledává tak, že se o tento formát většinou nemusíme zajímat. S některými problémy si však neporadí, a proto je vhodné se seznámit s tím, jak se v prostředí TEITOK zaznamenávají údaje o vlastnostech rukopisu (škrtání, vsuvky), anonymizovaná vlastní jména, dělení na slova (tokenizace) a další chybová i lingvistická anotace. Pomůže nám to opravovat některé typy chyb v přepisu a tokenizaci, upravovat a doplňovat anonymizované údaje, a anotovat složitější chyby. | Naskenované rukopisy jsou přepsány do elektronické podoby a uloženy v TEITOKu ve formátu XML (úvod viz např. [[https://cs.wikipedia.org/wiki/Extensible_Markup_Language|heslo XML ve Wiki]]). TEITOK je zobrazuje, edituje, ukládá a prohledává tak, že se o tento formát většinou nemusíme zajímat. S některými problémy si však neporadí, a proto je vhodné se seznámit s tím, jak se v prostředí TEITOK zaznamenávají údaje o vlastnostech rukopisu (škrtání, vsuvky), anonymizovaná vlastní jména, dělení na slova (tokenizace) a další chybová i lingvistická anotace. Pomůže nám to opravovat některé typy chyb v přepisu a tokenizaci, upravovat a doplňovat anonymizované údaje, a anotovat složitější chyby. | ||
- | Kromě vlastního textu jsou ve formátu XML značky (tagy), které označují začátek a konec elementu, tj. nějaké části textu (písmene, slova, nebo jiného úseku textu). Značky mají své názvy a k odlišení od běžného textu jsou v lomených závorkách, např. počáteční značka pro element text (tj. pro celý jeden text) se zapisuje jako ''<text>'' a koncová značka jako ''</text>''. Je-li element prázdný, může se např. místo ''<text></text>'' zapsat ''<text/>''. Některé značky mohou obsahovat atributy s jejich hodnotami, např. element tok (slovo nebo interpunkční znaménko) může mít atributy pro identifikátor daného tokenu v textu a různé jeho interpretace: ''<tok id=<nowiki>"</nowiki>w-6<nowiki>"</nowiki> ort=<nowiki>"</nowiki>kočkovité<nowiki>"</nowiki>kočkovíté</tok>''. | + | Kromě vlastního textu jsou ve formátu XML značky (tagy), které označují začátek a konec elementu, tj. nějaké části textu (písmene, slova, nebo jiného úseku textu). Značky mají své názvy a k odlišení od běžného textu jsou v lomených závorkách, např. počáteční značka pro element text (tj. pro celý jeden text) se zapisuje jako ''<text>'' a koncová značka jako ''</text>''. Je-li element prázdný, může se např. místo ''<text></text>'' zapsat ''<text/>''. Některé značky mohou obsahovat atributy s jejich hodnotami, např. element tok (slovo nebo interpunkční znaménko) může mít atributy pro identifikátor daného tokenu v textu a různé jeho interpretace: ''<tok id=<nowiki>"</nowiki>w-6<nowiki>"</nowiki> ort=<nowiki>"</nowiki>kočkovité<nowiki>"</nowiki>>kočkovíté</tok>''. |
Soubor XML lze editovat před tokenizací (//This XML has not been tokenized yet, and only the text is shown below. To edit, click **here**.//) nebo po tokenizaci. Po tokenizaci si lze navíc nechat zobrazit celý text nebo jen nejbližší okolí konkrétního slova (//Edit the information about each word of this file by clicking on the word in the text below, or click **here** to edit the raw XML.//) | Soubor XML lze editovat před tokenizací (//This XML has not been tokenized yet, and only the text is shown below. To edit, click **here**.//) nebo po tokenizaci. Po tokenizaci si lze navíc nechat zobrazit celý text nebo jen nejbližší okolí konkrétního slova (//Edit the information about each word of this file by clicking on the word in the text below, or click **here** to edit the raw XML.//) | ||
Řádek 176: | Řádek 176: | ||
Nevyplněné položky se při dalším zpracování doplní údaji z výše uvedených rovin. Pokud chcete na nějaké rovině uvést, že zde token neexistuje, zapište dva spojovníky (<nowiki>--</nowiki>). Takovým způsobem lze např. v @ort vymazat interpunkci navíc. | Nevyplněné položky se při dalším zpracování doplní údaji z výše uvedených rovin. Pokud chcete na nějaké rovině uvést, že zde token neexistuje, zapište dva spojovníky (<nowiki>--</nowiki>). Takovým způsobem lze např. v @ort vymazat interpunkci navíc. | ||
- | Pokud je slovo nesrozumitelné, nedává smysl ani v širším kontextu a žádný tvar, kterým by se dalo nahradit, vás nenapadá, uveďte do položky @ort tři otazníky (???). Pokud je nesrozumitelná celá věta, i když třeba obsahuje tvary, které jsou samy o sobě korektní nebo nějak interpretovatelné, označte třemi otazníky celou větu (viz níže Opravy na úrovni věty / Poznámky ke větám). | + | Pokud je slovo nesrozumitelné, nedává smysl ani v širším kontextu a žádný tvar, kterým by se dalo nahradit, vás nenapadá, uveďte do položky @ort, @gram nebo @lex tři otazníky (???). Neexistující tvar, který se vám nedaří opravit, označte třemi otazníky v položce @ort. Jde-li o existující, ale morfosyntakticky chybný tvar, uveďte tři otazníky v položce @gram. Správně utvořené slovo ve správném tvaru, včetně autorských neologismů, které však v kontextu nedává smysl a nelze ho ničím nahradit, označte třemi otazníky v položce @lex. |
+ | |||
+ | Pokud je nesrozumitelná celá věta, i když třeba obsahuje tvary, které jsou samy o sobě korektní nebo nějak interpretovatelné, označte třemi otazníky celou větu (viz níže Opravy na úrovni věty / Poznámky ke větám). | ||
==== 4.3. Na jaké rovině tvar opravit? ==== | ==== 4.3. Na jaké rovině tvar opravit? ==== | ||
Řádek 201: | Řádek 203: | ||
* záměnu předložky nebo spojky za jinou předložku nebo spojku řešíme na @lex, stejně tak i záměnu modálních sloves | * záměnu předložky nebo spojky za jinou předložku nebo spojku řešíme na @lex, stejně tak i záměnu modálních sloves | ||
* záměna zvratných tvarů, záměna pomocného slovesa //být// nebo spony | * záměna zvratných tvarů, záměna pomocného slovesa //být// nebo spony | ||
- | * **//Problémem zůstává, jak řešit chybějící nebo přebývající pomocné sloveso v nekontaktní slovosledné pozici vůči slovesu vyznamovému – nabízí se stejné řešení jako u ostatních pomocných slov, je jen otázka, zda to nerozšířit i na kontaktní pozici.//** | + | * je-li chybějící nebo přebývající pomocné sloveso v nekontaktní slovosledné pozici vůči slovesu významovému, použijeme stejné řešení jako u ostatních pomocných slov, tj. pomocné sloveso přidáme nebo smažeme |
* **@lex**: | * **@lex**: | ||
* chyby, u kterých je třeba provést záměnu lexémů (//autem mechanikem => automechanikem, pán => pan [Novák], kdy => kdyby //), nejde-li o pomocné slovo | * chyby, u kterých je třeba provést záměnu lexémů (//autem mechanikem => automechanikem, pán => pan [Novák], kdy => kdyby //), nejde-li o pomocné slovo | ||
Řádek 259: | Řádek 261: | ||
Chybně spojená a rozdělená slova považujeme za pravopisnou chybu. | Chybně spojená a rozdělená slova považujeme za pravopisnou chybu. | ||
- | === Chybně spojená slova === | + | === 4.6.1. Chybně spojená slova === |
Chybně spojená slova (např. //řeklsi//) stačí přepsat odděleně s mezerou v @ort, uložit a kliknout pod textem dole na "Split tokens based on ort". Původní token (stále označený jako element "tok") se tak rozdělí na více podtokenů, označených jako "dtok". U podtokenů je oddělená část původně spojeného tvaru uvedena jako @form daného podtokenu ("D-Token" na stránce "Edit Token") a lze ji dále opravovat. | Chybně spojená slova (např. //řeklsi//) stačí přepsat odděleně s mezerou v @ort, uložit a kliknout pod textem dole na "Split tokens based on ort". Původní token (stále označený jako element "tok") se tak rozdělí na více podtokenů, označených jako "dtok". U podtokenů je oddělená část původně spojeného tvaru uvedena jako @form daného podtokenu ("D-Token" na stránce "Edit Token") a lze ji dále opravovat. | ||
Řádek 265: | Řádek 267: | ||
Funkci lze na daný text použít jen jednou. Opravíme tedy nejprve všechna spojené slova v textu v @ort a až nakonec klikneme na funkci "Split tokens based on ort". | Funkci lze na daný text použít jen jednou. Opravíme tedy nejprve všechna spojené slova v textu v @ort a až nakonec klikneme na funkci "Split tokens based on ort". | ||
- | === Chybně oddělená slova === | + | === 6.6.2. Chybně oddělená slova === |
Chybně oddělená slova (např. //s kamarádit//) opravíme na @ort tak, že klikneme na slovo za mezerou a zvolíme "create mtok left: 1" (pokud spojujeme s jedním tokenem vlevo) nebo "create mtok left: 2" (pokud spojujeme se dvěma tokeny vlevo). V @ort pod "Multi-token value (newmtok)" pak vyplníme @ort. | Chybně oddělená slova (např. //s kamarádit//) opravíme na @ort tak, že klikneme na slovo za mezerou a zvolíme "create mtok left: 1" (pokud spojujeme s jedním tokenem vlevo) nebo "create mtok left: 2" (pokud spojujeme se dvěma tokeny vlevo). V @ort pod "Multi-token value (newmtok)" pak vyplníme @ort. | ||
Řádek 291: | Řádek 293: | ||
Editování XML si ušetříme, když postup obrátíme: nejdřív za //slovo2// přidáme čárku a teprve potom spojíme //slovo2// se //slovem1//. Dostaneme tak správnou verzi rovnou. | Editování XML si ušetříme, když postup obrátíme: nejdřív za //slovo2// přidáme čárku a teprve potom spojíme //slovo2// se //slovem1//. Dostaneme tak správnou verzi rovnou. | ||
- | === Nahrazení jednoho slova více slovy a naopak === | + | === 4.6.3. Nahrazení jednoho slova více slovy a naopak === |
Jde-li o lexikální opravu, použijeme funkci "split in dtoks" na @lex. Chybějící předložku ale doplňujeme na @gram jako další token pomocí funkce "insert tok before: separate". Chceme-li naopak předložku smazat, uvedeme na příslušné rovině (@gram) dva spojovníky (<nowiki>--</nowiki>). | Jde-li o lexikální opravu, použijeme funkci "split in dtoks" na @lex. Chybějící předložku ale doplňujeme na @gram jako další token pomocí funkce "insert tok before: separate". Chceme-li naopak předložku smazat, uvedeme na příslušné rovině (@gram) dva spojovníky (<nowiki>--</nowiki>). | ||
- | ==== Vymazání a vložení tokenu ==== | + | ==== 4.7. Vymazání a vložení tokenu ==== |
U interpunkce jde vždy o chybu pravopisnou (@ort), jindy může jít i o chybu morfosyntaktickou nebo lexikální. Pokud je konstrukce bez doplnění negramatická (část slovesného tvaru, předmět u slovesa //dát//, //mít// apod.), byla by to spíše morfosyntaktická chyba, pokud je bez doplnění nesrozumitelná, byla by to chyba spíše lexikální. Za lexikální chybu považujeme také bezdůvodné opakování slova. Každopádně to má smysl jen tehdy, pokud máme relativní jistotu, co doplnit. | U interpunkce jde vždy o chybu pravopisnou (@ort), jindy může jít i o chybu morfosyntaktickou nebo lexikální. Pokud je konstrukce bez doplnění negramatická (část slovesného tvaru, předmět u slovesa //dát//, //mít// apod.), byla by to spíše morfosyntaktická chyba, pokud je bez doplnění nesrozumitelná, byla by to chyba spíše lexikální. Za lexikální chybu považujeme také bezdůvodné opakování slova. Každopádně to má smysl jen tehdy, pokud máme relativní jistotu, co doplnit. | ||
Řádek 300: | Řádek 302: | ||
Mazat a přidávat můžeme i podtokeny (elementy dtok). Např. v //dočkat se naněj// rozdělíme nejdřív //naněj// na dva elementy dtok (vz Chybně oddělená slova). V dtok předložky pak zapíšeme do @gram dva spojovníky (<nowiki>--</nowiki>, viz Vymazání tokenu) a zájmeno //něj// analogicky opravíme na //ho//. Ale //ho// musíme zapsat i do @gram elementu tok, jinak bude v zobrazení morfosyntaktických chyb na Text view stále jen //na něj//. | Mazat a přidávat můžeme i podtokeny (elementy dtok). Např. v //dočkat se naněj// rozdělíme nejdřív //naněj// na dva elementy dtok (vz Chybně oddělená slova). V dtok předložky pak zapíšeme do @gram dva spojovníky (<nowiki>--</nowiki>, viz Vymazání tokenu) a zájmeno //něj// analogicky opravíme na //ho//. Ale //ho// musíme zapsat i do @gram elementu tok, jinak bude v zobrazení morfosyntaktických chyb na Text view stále jen //na něj//. | ||
- | === Vymazání tokenu === | + | === 4.7.1. Vymazání tokenu === |
Na příslušné rovině zapište dva spojovníky (<nowiki>--</nowiki>). | Na příslušné rovině zapište dva spojovníky (<nowiki>--</nowiki>). | ||
- | === Vložení tokenu === | + | === 4.7.2. Vložení tokenu === |
Slova do textu doplňujeme jen v nutných případech, kdy by jinak text byl negramatický nebo zcela nesrozumitelný a kdy víme s dostatečnou jistotou, co doplnit. Je-li třeba doplnit více než jedno slovo, snažíme se minimalizovat jejich počet. | Slova do textu doplňujeme jen v nutných případech, kdy by jinak text byl negramatický nebo zcela nesrozumitelný a kdy víme s dostatečnou jistotou, co doplnit. Je-li třeba doplnit více než jedno slovo, snažíme se minimalizovat jejich počet. | ||
Řádek 314: | Řádek 316: | ||
- Můžete tak vkládat libovolné slovo, ale třeba i uvozovky, i těsně před slovo ("before" místo "after"), nebo pomlčky, oddělené mezerou ("separate" místo "attached"). | - Můžete tak vkládat libovolné slovo, ale třeba i uvozovky, i těsně před slovo ("before" místo "after"), nebo pomlčky, oddělené mezerou ("separate" místo "attached"). | ||
- Tokeny nelze vkládat před nebo za spojená slova (elementy mtok). Je tedy lepší nejdříve token vložit před nebo za chybně oddělené slovo a pak teprve chybně oddělená slova spojit. Více viz Chybně oddělená slova. | - Tokeny nelze vkládat před nebo za spojená slova (elementy mtok). Je tedy lepší nejdříve token vložit před nebo za chybně oddělené slovo a pak teprve chybně oddělená slova spojit. Více viz Chybně oddělená slova. | ||
- | ==== Opravy posloupnosti slov ==== | + | ==== 4.8. Opravy posloupnosti slov ==== |
- | === Opravy slovosledu === | + | Více slov najednou opravujeme jen v nutných případech, jinak dáváme přednost opravám jednotlivých slov. Opravy více slov najednou provádíme z jiné stránky než opravy jednotlivých slov. Ze stránky **Text view** se na tuto stránku dostaneme po kliknutí na **Stand-off error annotation**. Opravy více slov se zaznamenávají do odděleného souboru v podobě odkazů na jednotlivé tokeny v textu. Tento soubor nenajdeme ve své složce, ale můžeme se na něj podívat ze stránky **Stand-off error annotation** po kliknutí na **edit raw XML file**. |
- | * klikněte na Create Stand-off error annotation v Text view dole pod textem | + | === 4.8.1. Opravy slovosledu === |
- | * vyznačte myší souvislý úsek textu, v němž chcete upravit slovosled | + | |
- | * úsek by měl být co nejkratší, neměl by tedy obsahovat na začátku a na konci slova, která zůstanou po opravě na stejné pozici | + | Neopravujeme slovosled, který je jen stylisticky neobratný. Platí zásada minimální intervence: původní text by měl být v důsledku nesprávného slovosledu negramatický nebo těžko srozumitelný. |
- | * v rámečku Edit Annotation vpravo vyberte v položce Code kód WO | + | |
- | * v položce Correction uveďte daný úsek textu se všemi provedenými opravami a s opraveným slovosledem | + | * slovosled opravujeme až po všech opravách jednotlivých slov v Text view |
- | * opravu uložte | + | * klikneme na Create Stand-off error annotation v Text view dole pod textem |
+ | * tak jako v Text view si nad textem můžeme vybrat zobrazení, obvykle zvolíme tlačítko nejvíce vpravo (např. Lexically corrected form) | ||
+ | * slovosled opravujeme tak, že stiskneme klávesu **Alt** a myší zvýrazňujeme slova ve správném pořadí; chceme-li např. opravit //ještě líbí se mi klima v Praze// na //ještě se mi líbí klima v Praze//, stiskneme **Alt**, zvýrazníme //se mi// a pak //ještě// | ||
+ | * je také možné postupně ve správném pořadí klikáním se stisknutou klávesou **Alt** zvýrazňovat jednotlivá slova, nikoli úseky: se stisknutou klávesou **Alt** klikneme na postupně na //se//, //mi// a //ještě// | ||
+ | * vyznačované úseky nemusí dohromady tvořit souvislý úsek a měly by být co nejkratší, neměly by tedy obsahovat slova, která zůstanou po opravě na stejné pozici | ||
+ | * uvolníme klávesu **alt** a v rámečku Edit Annotation vpravo vybereme v položce Code kód **WO** | ||
+ | * položku Correction ponecháme prázdnou | ||
+ | * opravu uložíme | ||
Takto můžeme opravovat i celou větu. Oproti přepsání věty do Target hypothesis to má tu výhodu, že uvádíme explicitně kód chyby. | Takto můžeme opravovat i celou větu. Oproti přepsání věty do Target hypothesis to má tu výhodu, že uvádíme explicitně kód chyby. | ||
Řádek 329: | Řádek 338: | ||
Stand-off anotace ale má tu nevýhodu, že oprava je vidět jen na stránce Stand-off annotation, po kliknutí na Create Stand-off error annotation. I proto je důležité opravovat tímto způsobem jen slovosled, vycházet tedy ze oprav provedených u jednotlivých tokenů. | Stand-off anotace ale má tu nevýhodu, že oprava je vidět jen na stránce Stand-off annotation, po kliknutí na Create Stand-off error annotation. I proto je důležité opravovat tímto způsobem jen slovosled, vycházet tedy ze oprav provedených u jednotlivých tokenů. | ||
- | === Opravy konstrukcí === | + | === 4.8.2. Opravy konstrukcí === |
Stand-off anotaci můžeme využít i pro opravy konstrukcí, které nelze dost dobře zvládnout opravami jednotlivých slov. Např. //bratr a sestra jsou moc různí// tak můžeme opravit na //bratr a sestra se hodně liší// tak, že kódem CONSTR vyznačíme a opravíme úsek //jsou moc různí//. | Stand-off anotaci můžeme využít i pro opravy konstrukcí, které nelze dost dobře zvládnout opravami jednotlivých slov. Např. //bratr a sestra jsou moc různí// tak můžeme opravit na //bratr a sestra se hodně liší// tak, že kódem CONSTR vyznačíme a opravíme úsek //jsou moc různí//. | ||
- | === Označení problémových úseků === | + | === 4.8.3. Označení problémových úseků === |
Stand-off anotaci můžeme využít i pro označení nesrozumitelných a tedy neopravitelných úseků. Zvolíme kód PROBLEM. Považujte prosím tuhle možnost za nouzové řešení, kdy opravdu nelze anotovat jinak. | Stand-off anotaci můžeme využít i pro označení nesrozumitelných a tedy neopravitelných úseků. Zvolíme kód PROBLEM. Považujte prosím tuhle možnost za nouzové řešení, kdy opravdu nelze anotovat jinak. | ||
- | ==== Opravy na úrovni věty ==== | + | ==== 4.9. Opravy na úrovni věty ==== |
+ | |||
+ | === 4.9.1. Opravy slovosledu === | ||
- | === Opravy slovosledu === | + | Slovosled opravujeme tímto způsobem jen ve výjimečných případech, kdy je při opravě třeba přeformulovat celé dlouhé souvětí a opravu nelze rozumným způsobem provést způsobem popsaným výše v části Oprava posloupnosti slov. |
- | Slovosled opravujeme jen v nutných případech, kdy je původní text negramatický nebo těžko srozumitelný. Při opravách slovosledu přepisujeme celou větu v jejím konečném znění, po všech opravách. | + | Nesnažíme se také opravovat slovosled, který je jen stylisticky neobratný. Platí zásada minimální intervence: původní text by měl být v důsledku nesprávného slovosledu negramatický nebo těžko srozumitelný. Při opravách slovosledu přepisujeme celou větu v jejím konečném znění, po všech opravách. |
V "Text View" klikněte dole pod textem na "Zobrazit po větách", pak vlevo na číslo konkrétní věty. Objeví se rámeček "Target Hypothesis", kam lze zapsat celou větu ve správném slovosledu. Uveďte její konečnou verzi, tj. po všech opravách i jednotlivých slov. | V "Text View" klikněte dole pod textem na "Zobrazit po větách", pak vlevo na číslo konkrétní věty. Objeví se rámeček "Target Hypothesis", kam lze zapsat celou větu ve správném slovosledu. Uveďte její konečnou verzi, tj. po všech opravách i jednotlivých slov. | ||
Řádek 346: | Řádek 357: | ||
Pokud odstavec textu obsahuje více vět, je třeba text na věty nejprve rozdělit, viz Rozdělení odstavců na věty. | Pokud odstavec textu obsahuje více vět, je třeba text na věty nejprve rozdělit, viz Rozdělení odstavců na věty. | ||
- | === Poznámky ke větám === | + | === 4.9.2. Poznámky ke větám === |
Ke každé větě lze připojit i poznámku. V "Text View" klikněte dole pod textem na "Zobrazit po větách", pak vlevo na číslo konkrétní věty. Do rámečku "Note" můžete zapsat ???, pokud je věta zcela nesrozumitelná a lze opravit třeba jen pravopisnou podobu slov. Můžete vložit i jinou relevantní poznámku. | Ke každé větě lze připojit i poznámku. V "Text View" klikněte dole pod textem na "Zobrazit po větách", pak vlevo na číslo konkrétní věty. Do rámečku "Note" můžete zapsat ???, pokud je věta zcela nesrozumitelná a lze opravit třeba jen pravopisnou podobu slov. Můžete vložit i jinou relevantní poznámku. | ||
Řádek 352: | Řádek 363: | ||
Pokud odstavec textu obsahuje více vět, je třeba text na věty nejprve rozdělit, viz Rozdělení odstavců na věty. | Pokud odstavec textu obsahuje více vět, je třeba text na věty nejprve rozdělit, viz Rozdělení odstavců na věty. | ||
- | === Rozdělení odstavců na věty === | + | === 4.9.3. Rozdělení odstavců na věty === |
Hranice vět v běžných případech nemusíte vůbec řešit. Pokud byste ale u některé věty v textu chtěli opravit slovosled, nebo k ní uvést poznámku, je třeba hranice věty v textu (XML) vyznačit. Začátek a konec věty se označuje značkami <s> a </s>. Po tokenizaci se hranice vět shodují s hranicemi odstavců. Za každým <p> tedy následuje <s> a každému </p> předchází </s>. Obsahuje-li odstavec více vět, je třeba provést níže uvedený postup. | Hranice vět v běžných případech nemusíte vůbec řešit. Pokud byste ale u některé věty v textu chtěli opravit slovosled, nebo k ní uvést poznámku, je třeba hranice věty v textu (XML) vyznačit. Začátek a konec věty se označuje značkami <s> a </s>. Po tokenizaci se hranice vět shodují s hranicemi odstavců. Za každým <p> tedy následuje <s> a každému </p> předchází </s>. Obsahuje-li odstavec více vět, je třeba provést níže uvedený postup. |