Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Both sides previous revision Předchozí verze Následující verze | Předchozí verze | ||
skript_man:navod_k_anotaci [2019/10/07 19:38] rosen [Opravy posloupnosti slov] |
skript_man:navod_k_anotaci [2020/02/18 19:29] (aktuální) rosen [4.2. Postup] ??? - na @ort,@gram i @lex |
||
---|---|---|---|
Řádek 5: | Řádek 5: | ||
==== 1.1. Přihlášení do systému TEITOK ==== | ==== 1.1. Přihlášení do systému TEITOK ==== | ||
- | === 1.1.1. Projekt SKRIPT2015 === | + | === 1.1.1. Projekt Skript 2015 === |
Přihlásíme se svým emailem a heslem na adrese http://utkl.ff.cuni.cz/teitok/emendace/. | Přihlásíme se svým emailem a heslem na adrese http://utkl.ff.cuni.cz/teitok/emendace/. | ||
Nemáte-li přístupové údaje, napište si o ně. | Nemáte-li přístupové údaje, napište si o ně. | ||
Řádek 81: | Řádek 81: | ||
Naskenované rukopisy jsou přepsány do elektronické podoby a uloženy v TEITOKu ve formátu XML (úvod viz např. [[https://cs.wikipedia.org/wiki/Extensible_Markup_Language|heslo XML ve Wiki]]). TEITOK je zobrazuje, edituje, ukládá a prohledává tak, že se o tento formát většinou nemusíme zajímat. S některými problémy si však neporadí, a proto je vhodné se seznámit s tím, jak se v prostředí TEITOK zaznamenávají údaje o vlastnostech rukopisu (škrtání, vsuvky), anonymizovaná vlastní jména, dělení na slova (tokenizace) a další chybová i lingvistická anotace. Pomůže nám to opravovat některé typy chyb v přepisu a tokenizaci, upravovat a doplňovat anonymizované údaje, a anotovat složitější chyby. | Naskenované rukopisy jsou přepsány do elektronické podoby a uloženy v TEITOKu ve formátu XML (úvod viz např. [[https://cs.wikipedia.org/wiki/Extensible_Markup_Language|heslo XML ve Wiki]]). TEITOK je zobrazuje, edituje, ukládá a prohledává tak, že se o tento formát většinou nemusíme zajímat. S některými problémy si však neporadí, a proto je vhodné se seznámit s tím, jak se v prostředí TEITOK zaznamenávají údaje o vlastnostech rukopisu (škrtání, vsuvky), anonymizovaná vlastní jména, dělení na slova (tokenizace) a další chybová i lingvistická anotace. Pomůže nám to opravovat některé typy chyb v přepisu a tokenizaci, upravovat a doplňovat anonymizované údaje, a anotovat složitější chyby. | ||
- | Kromě vlastního textu jsou ve formátu XML značky (tagy), které označují začátek a konec elementu, tj. nějaké části textu (písmene, slova, nebo jiného úseku textu). Značky mají své názvy a k odlišení od běžného textu jsou v lomených závorkách, např. počáteční značka pro element text (tj. pro celý jeden text) se zapisuje jako ''<text>'' a koncová značka jako ''</text>''. Je-li element prázdný, může se např. místo ''<text></text>'' zapsat ''<text/>''. Některé značky mohou obsahovat atributy s jejich hodnotami, např. element tok (slovo nebo interpunkční znaménko) může mít atributy pro identifikátor daného tokenu v textu a různé jeho interpretace: ''<tok id=<nowiki>"</nowiki>w-6<nowiki>"</nowiki> ort=<nowiki>"</nowiki>kočkovité<nowiki>"</nowiki>kočkovíté</tok>''. | + | Kromě vlastního textu jsou ve formátu XML značky (tagy), které označují začátek a konec elementu, tj. nějaké části textu (písmene, slova, nebo jiného úseku textu). Značky mají své názvy a k odlišení od běžného textu jsou v lomených závorkách, např. počáteční značka pro element text (tj. pro celý jeden text) se zapisuje jako ''<text>'' a koncová značka jako ''</text>''. Je-li element prázdný, může se např. místo ''<text></text>'' zapsat ''<text/>''. Některé značky mohou obsahovat atributy s jejich hodnotami, např. element tok (slovo nebo interpunkční znaménko) může mít atributy pro identifikátor daného tokenu v textu a různé jeho interpretace: ''<tok id=<nowiki>"</nowiki>w-6<nowiki>"</nowiki> ort=<nowiki>"</nowiki>kočkovité<nowiki>"</nowiki>>kočkovíté</tok>''. |
Soubor XML lze editovat před tokenizací (//This XML has not been tokenized yet, and only the text is shown below. To edit, click **here**.//) nebo po tokenizaci. Po tokenizaci si lze navíc nechat zobrazit celý text nebo jen nejbližší okolí konkrétního slova (//Edit the information about each word of this file by clicking on the word in the text below, or click **here** to edit the raw XML.//) | Soubor XML lze editovat před tokenizací (//This XML has not been tokenized yet, and only the text is shown below. To edit, click **here**.//) nebo po tokenizaci. Po tokenizaci si lze navíc nechat zobrazit celý text nebo jen nejbližší okolí konkrétního slova (//Edit the information about each word of this file by clicking on the word in the text below, or click **here** to edit the raw XML.//) | ||
Řádek 176: | Řádek 176: | ||
Nevyplněné položky se při dalším zpracování doplní údaji z výše uvedených rovin. Pokud chcete na nějaké rovině uvést, že zde token neexistuje, zapište dva spojovníky (<nowiki>--</nowiki>). Takovým způsobem lze např. v @ort vymazat interpunkci navíc. | Nevyplněné položky se při dalším zpracování doplní údaji z výše uvedených rovin. Pokud chcete na nějaké rovině uvést, že zde token neexistuje, zapište dva spojovníky (<nowiki>--</nowiki>). Takovým způsobem lze např. v @ort vymazat interpunkci navíc. | ||
- | Pokud je slovo nesrozumitelné, nedává smysl ani v širším kontextu a žádný tvar, kterým by se dalo nahradit, vás nenapadá, uveďte do položky @ort tři otazníky (???). Pokud je nesrozumitelná celá věta, i když třeba obsahuje tvary, které jsou samy o sobě korektní nebo nějak interpretovatelné, označte třemi otazníky celou větu (viz níže Opravy na úrovni věty / Poznámky ke větám). | + | Pokud je slovo nesrozumitelné, nedává smysl ani v širším kontextu a žádný tvar, kterým by se dalo nahradit, vás nenapadá, uveďte do položky @ort, @gram nebo @lex tři otazníky (???). Neexistující tvar, který se vám nedaří opravit, označte třemi otazníky v položce @ort. Jde-li o existující, ale morfosyntakticky chybný tvar, uveďte tři otazníky v položce @gram. Správně utvořené slovo ve správném tvaru, včetně autorských neologismů, které však v kontextu nedává smysl a nelze ho ničím nahradit, označte třemi otazníky v položce @lex. |
+ | |||
+ | Pokud je nesrozumitelná celá věta, i když třeba obsahuje tvary, které jsou samy o sobě korektní nebo nějak interpretovatelné, označte třemi otazníky celou větu (viz níže Opravy na úrovni věty / Poznámky ke větám). | ||
==== 4.3. Na jaké rovině tvar opravit? ==== | ==== 4.3. Na jaké rovině tvar opravit? ==== | ||
Řádek 201: | Řádek 203: | ||
* záměnu předložky nebo spojky za jinou předložku nebo spojku řešíme na @lex, stejně tak i záměnu modálních sloves | * záměnu předložky nebo spojky za jinou předložku nebo spojku řešíme na @lex, stejně tak i záměnu modálních sloves | ||
* záměna zvratných tvarů, záměna pomocného slovesa //být// nebo spony | * záměna zvratných tvarů, záměna pomocného slovesa //být// nebo spony | ||
- | * **//Problémem zůstává, jak řešit chybějící nebo přebývající pomocné sloveso v nekontaktní slovosledné pozici vůči slovesu vyznamovému – nabízí se stejné řešení jako u ostatních pomocných slov, je jen otázka, zda to nerozšířit i na kontaktní pozici.//** | + | * je-li chybějící nebo přebývající pomocné sloveso v nekontaktní slovosledné pozici vůči slovesu významovému, použijeme stejné řešení jako u ostatních pomocných slov, tj. pomocné sloveso přidáme nebo smažeme |
* **@lex**: | * **@lex**: | ||
* chyby, u kterých je třeba provést záměnu lexémů (//autem mechanikem => automechanikem, pán => pan [Novák], kdy => kdyby //), nejde-li o pomocné slovo | * chyby, u kterých je třeba provést záměnu lexémů (//autem mechanikem => automechanikem, pán => pan [Novák], kdy => kdyby //), nejde-li o pomocné slovo | ||
Řádek 315: | Řádek 317: | ||
- Tokeny nelze vkládat před nebo za spojená slova (elementy mtok). Je tedy lepší nejdříve token vložit před nebo za chybně oddělené slovo a pak teprve chybně oddělená slova spojit. Více viz Chybně oddělená slova. | - Tokeny nelze vkládat před nebo za spojená slova (elementy mtok). Je tedy lepší nejdříve token vložit před nebo za chybně oddělené slovo a pak teprve chybně oddělená slova spojit. Více viz Chybně oddělená slova. | ||
==== 4.8. Opravy posloupnosti slov ==== | ==== 4.8. Opravy posloupnosti slov ==== | ||
+ | |||
+ | Více slov najednou opravujeme jen v nutných případech, jinak dáváme přednost opravám jednotlivých slov. Opravy více slov najednou provádíme z jiné stránky než opravy jednotlivých slov. Ze stránky **Text view** se na tuto stránku dostaneme po kliknutí na **Stand-off error annotation**. Opravy více slov se zaznamenávají do odděleného souboru v podobě odkazů na jednotlivé tokeny v textu. Tento soubor nenajdeme ve své složce, ale můžeme se na něj podívat ze stránky **Stand-off error annotation** po kliknutí na **edit raw XML file**. | ||
=== 4.8.1. Opravy slovosledu === | === 4.8.1. Opravy slovosledu === | ||
- | * klikněte na Create Stand-off error annotation v Text view dole pod textem | + | Neopravujeme slovosled, který je jen stylisticky neobratný. Platí zásada minimální intervence: původní text by měl být v důsledku nesprávného slovosledu negramatický nebo těžko srozumitelný. |
- | * vyznačte myší souvislý úsek textu, v němž chcete upravit slovosled | + | |
- | * úsek by měl být co nejkratší, neměl by tedy obsahovat na začátku a na konci slova, která zůstanou po opravě na stejné pozici | + | * slovosled opravujeme až po všech opravách jednotlivých slov v Text view |
- | * v rámečku Edit Annotation vpravo vyberte v položce Code kód WO | + | * klikneme na Create Stand-off error annotation v Text view dole pod textem |
- | * v položce Correction uveďte daný úsek textu se všemi provedenými opravami a s opraveným slovosledem | + | * tak jako v Text view si nad textem můžeme vybrat zobrazení, obvykle zvolíme tlačítko nejvíce vpravo (např. Lexically corrected form) |
- | * opravu uložte | + | * slovosled opravujeme tak, že stiskneme klávesu **Alt** a myší zvýrazňujeme slova ve správném pořadí; chceme-li např. opravit //ještě líbí se mi klima v Praze// na //ještě se mi líbí klima v Praze//, stiskneme **Alt**, zvýrazníme //se mi// a pak //ještě// |
+ | * je také možné postupně ve správném pořadí klikáním se stisknutou klávesou **Alt** zvýrazňovat jednotlivá slova, nikoli úseky: se stisknutou klávesou **Alt** klikneme na postupně na //se//, //mi// a //ještě// | ||
+ | * vyznačované úseky nemusí dohromady tvořit souvislý úsek a měly by být co nejkratší, neměly by tedy obsahovat slova, která zůstanou po opravě na stejné pozici | ||
+ | * uvolníme klávesu **alt** a v rámečku Edit Annotation vpravo vybereme v položce Code kód **WO** | ||
+ | * položku Correction ponecháme prázdnou | ||
+ | * opravu uložíme | ||
Takto můžeme opravovat i celou větu. Oproti přepsání věty do Target hypothesis to má tu výhodu, že uvádíme explicitně kód chyby. | Takto můžeme opravovat i celou větu. Oproti přepsání věty do Target hypothesis to má tu výhodu, že uvádíme explicitně kód chyby. | ||
Řádek 336: | Řádek 345: | ||
Stand-off anotaci můžeme využít i pro označení nesrozumitelných a tedy neopravitelných úseků. Zvolíme kód PROBLEM. Považujte prosím tuhle možnost za nouzové řešení, kdy opravdu nelze anotovat jinak. | Stand-off anotaci můžeme využít i pro označení nesrozumitelných a tedy neopravitelných úseků. Zvolíme kód PROBLEM. Považujte prosím tuhle možnost za nouzové řešení, kdy opravdu nelze anotovat jinak. | ||
- | ==== Opravy na úrovni věty ==== | + | ==== 4.9. Opravy na úrovni věty ==== |
+ | |||
+ | === 4.9.1. Opravy slovosledu === | ||
- | === Opravy slovosledu === | + | Slovosled opravujeme tímto způsobem jen ve výjimečných případech, kdy je při opravě třeba přeformulovat celé dlouhé souvětí a opravu nelze rozumným způsobem provést způsobem popsaným výše v části Oprava posloupnosti slov. |
- | Slovosled opravujeme jen v nutných případech, kdy je původní text negramatický nebo těžko srozumitelný. Při opravách slovosledu přepisujeme celou větu v jejím konečném znění, po všech opravách. | + | Nesnažíme se také opravovat slovosled, který je jen stylisticky neobratný. Platí zásada minimální intervence: původní text by měl být v důsledku nesprávného slovosledu negramatický nebo těžko srozumitelný. Při opravách slovosledu přepisujeme celou větu v jejím konečném znění, po všech opravách. |
V "Text View" klikněte dole pod textem na "Zobrazit po větách", pak vlevo na číslo konkrétní věty. Objeví se rámeček "Target Hypothesis", kam lze zapsat celou větu ve správném slovosledu. Uveďte její konečnou verzi, tj. po všech opravách i jednotlivých slov. | V "Text View" klikněte dole pod textem na "Zobrazit po větách", pak vlevo na číslo konkrétní věty. Objeví se rámeček "Target Hypothesis", kam lze zapsat celou větu ve správném slovosledu. Uveďte její konečnou verzi, tj. po všech opravách i jednotlivých slov. | ||
Řádek 346: | Řádek 357: | ||
Pokud odstavec textu obsahuje více vět, je třeba text na věty nejprve rozdělit, viz Rozdělení odstavců na věty. | Pokud odstavec textu obsahuje více vět, je třeba text na věty nejprve rozdělit, viz Rozdělení odstavců na věty. | ||
- | === Poznámky ke větám === | + | === 4.9.2. Poznámky ke větám === |
Ke každé větě lze připojit i poznámku. V "Text View" klikněte dole pod textem na "Zobrazit po větách", pak vlevo na číslo konkrétní věty. Do rámečku "Note" můžete zapsat ???, pokud je věta zcela nesrozumitelná a lze opravit třeba jen pravopisnou podobu slov. Můžete vložit i jinou relevantní poznámku. | Ke každé větě lze připojit i poznámku. V "Text View" klikněte dole pod textem na "Zobrazit po větách", pak vlevo na číslo konkrétní věty. Do rámečku "Note" můžete zapsat ???, pokud je věta zcela nesrozumitelná a lze opravit třeba jen pravopisnou podobu slov. Můžete vložit i jinou relevantní poznámku. | ||
Řádek 352: | Řádek 363: | ||
Pokud odstavec textu obsahuje více vět, je třeba text na věty nejprve rozdělit, viz Rozdělení odstavců na věty. | Pokud odstavec textu obsahuje více vět, je třeba text na věty nejprve rozdělit, viz Rozdělení odstavců na věty. | ||
- | === Rozdělení odstavců na věty === | + | === 4.9.3. Rozdělení odstavců na věty === |
Hranice vět v běžných případech nemusíte vůbec řešit. Pokud byste ale u některé věty v textu chtěli opravit slovosled, nebo k ní uvést poznámku, je třeba hranice věty v textu (XML) vyznačit. Začátek a konec věty se označuje značkami <s> a </s>. Po tokenizaci se hranice vět shodují s hranicemi odstavců. Za každým <p> tedy následuje <s> a každému </p> předchází </s>. Obsahuje-li odstavec více vět, je třeba provést níže uvedený postup. | Hranice vět v běžných případech nemusíte vůbec řešit. Pokud byste ale u některé věty v textu chtěli opravit slovosled, nebo k ní uvést poznámku, je třeba hranice věty v textu (XML) vyznačit. Začátek a konec věty se označuje značkami <s> a </s>. Po tokenizaci se hranice vět shodují s hranicemi odstavců. Za každým <p> tedy následuje <s> a každému </p> předchází </s>. Obsahuje-li odstavec více vět, je třeba provést níže uvedený postup. |