Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Both sides previous revision Předchozí verze
Následující verze
Předchozí verze
skript_man:navod_k_anotaci [2019/10/07 21:41]
rosen [1.1. Přihlášení do systému TEITOK]
skript_man:navod_k_anotaci [2020/02/18 19:29] (aktuální)
rosen [4.2. Postup] ??? - na @ort,@gram i @lex
Řádek 81: Řádek 81:
 Naskenované rukopisy jsou přepsány do elektronické podoby a uloženy v TEITOKu ve formátu XML (úvod viz např. [[https://​cs.wikipedia.org/​wiki/​Extensible_Markup_Language|heslo XML ve Wiki]]). TEITOK je zobrazuje, edituje, ukládá a prohledává tak, že se o tento formát většinou nemusíme zajímat. S některými problémy si však neporadí, a proto je vhodné se seznámit s tím, jak se v prostředí TEITOK zaznamenávají údaje o vlastnostech rukopisu (škrtání,​ vsuvky), anonymizovaná vlastní jména, dělení na slova (tokenizace) a další chybová i lingvistická anotace. Pomůže nám to opravovat některé typy chyb v přepisu a tokenizaci, upravovat a doplňovat anonymizované údaje, ​ a anotovat složitější chyby. Naskenované rukopisy jsou přepsány do elektronické podoby a uloženy v TEITOKu ve formátu XML (úvod viz např. [[https://​cs.wikipedia.org/​wiki/​Extensible_Markup_Language|heslo XML ve Wiki]]). TEITOK je zobrazuje, edituje, ukládá a prohledává tak, že se o tento formát většinou nemusíme zajímat. S některými problémy si však neporadí, a proto je vhodné se seznámit s tím, jak se v prostředí TEITOK zaznamenávají údaje o vlastnostech rukopisu (škrtání,​ vsuvky), anonymizovaná vlastní jména, dělení na slova (tokenizace) a další chybová i lingvistická anotace. Pomůže nám to opravovat některé typy chyb v přepisu a tokenizaci, upravovat a doplňovat anonymizované údaje, ​ a anotovat složitější chyby.
  
-Kromě vlastního textu jsou ve formátu XML značky (tagy), které označují začátek a konec elementu, tj. nějaké části textu (písmene, slova, nebo jiného úseku textu). Značky mají své názvy a k odlišení od běžného textu jsou v lomených závorkách,​ např. počáteční značka pro element text (tj. pro celý jeden text) se zapisuje jako ''<​text>''​ a koncová značka jako ''</​text>''​. Je-li element prázdný, může se např. místo ''<​text></​text>''​ zapsat ''<​text/>''​. Některé značky mohou obsahovat atributy s jejich hodnotami, např. element tok (slovo nebo interpunkční znaménko) může mít atributy pro identifikátor daného tokenu v textu a různé jeho interpretace:​ ''<​tok id=<​nowiki>"</​nowiki>​w-6<​nowiki>"</​nowiki>​ ort=<​nowiki>"</​nowiki>​kočkovité<​nowiki>"</​nowiki>​kočkovíté</​tok>''​.+Kromě vlastního textu jsou ve formátu XML značky (tagy), které označují začátek a konec elementu, tj. nějaké části textu (písmene, slova, nebo jiného úseku textu). Značky mají své názvy a k odlišení od běžného textu jsou v lomených závorkách,​ např. počáteční značka pro element text (tj. pro celý jeden text) se zapisuje jako ''<​text>''​ a koncová značka jako ''</​text>''​. Je-li element prázdný, může se např. místo ''<​text></​text>''​ zapsat ''<​text/>''​. Některé značky mohou obsahovat atributy s jejich hodnotami, např. element tok (slovo nebo interpunkční znaménko) může mít atributy pro identifikátor daného tokenu v textu a různé jeho interpretace:​ ''<​tok id=<​nowiki>"</​nowiki>​w-6<​nowiki>"</​nowiki>​ ort=<​nowiki>"</​nowiki>​kočkovité<​nowiki>"</​nowiki>>​kočkovíté</​tok>''​.
  
 Soubor XML lze editovat před tokenizací (//This XML has not been tokenized yet, and only the text is shown below. To edit, click **here**.//​) nebo po tokenizaci. Po tokenizaci si lze navíc nechat zobrazit celý text nebo jen nejbližší okolí konkrétního slova (//Edit the information about each word of this file by clicking on the word in the text below, or click **here** to edit the raw XML.//) Soubor XML lze editovat před tokenizací (//This XML has not been tokenized yet, and only the text is shown below. To edit, click **here**.//​) nebo po tokenizaci. Po tokenizaci si lze navíc nechat zobrazit celý text nebo jen nejbližší okolí konkrétního slova (//Edit the information about each word of this file by clicking on the word in the text below, or click **here** to edit the raw XML.//)
Řádek 176: Řádek 176:
 Nevyplněné položky se při dalším zpracování doplní údaji z výše uvedených rovin. Pokud chcete na nějaké rovině uvést, že zde token neexistuje, zapište dva spojovníky (<​nowiki>​--</​nowiki>​). Takovým způsobem lze např. v @ort vymazat interpunkci navíc. Nevyplněné položky se při dalším zpracování doplní údaji z výše uvedených rovin. Pokud chcete na nějaké rovině uvést, že zde token neexistuje, zapište dva spojovníky (<​nowiki>​--</​nowiki>​). Takovým způsobem lze např. v @ort vymazat interpunkci navíc.
  
-Pokud je slovo nesrozumitelné,​ nedává smysl ani v širším kontextu a žádný tvar, kterým by se dalo nahradit, vás nenapadá, uveďte do položky @ort tři otazníky (???). Pokud je nesrozumitelná celá věta, i když třeba obsahuje tvary, které jsou samy o sobě korektní nebo nějak interpretovatelné,​ označte třemi otazníky celou větu (viz níže Opravy na úrovni věty / Poznámky ke větám). ​+Pokud je slovo nesrozumitelné,​ nedává smysl ani v širším kontextu a žádný tvar, kterým by se dalo nahradit, vás nenapadá, uveďte do položky @ort, @gram nebo @lex tři otazníky (???​). ​Neexistující tvar, který se vám nedaří opravit, označte třemi otazníky v položce @ort. Jde-li o existující,​ ale morfosyntakticky chybný tvar, uveďte tři otazníky v položce @gram. Správně utvořené slovo ve správném tvaru, včetně autorských neologismů,​ které však v kontextu nedává smysl a nelze ho ničím nahradit, označte třemi otazníky v položce @lex.  
 + 
 +Pokud je nesrozumitelná celá věta, i když třeba obsahuje tvary, které jsou samy o sobě korektní nebo nějak interpretovatelné,​ označte třemi otazníky celou větu (viz níže Opravy na úrovni věty / Poznámky ke větám). ​
  
 ==== 4.3. Na jaké rovině tvar opravit? ==== ==== 4.3. Na jaké rovině tvar opravit? ====
Řádek 201: Řádek 203:
       * záměnu předložky nebo spojky za jinou předložku nebo spojku řešíme na @lex, stejně tak i záměnu modálních sloves       * záměnu předložky nebo spojky za jinou předložku nebo spojku řešíme na @lex, stejně tak i záměnu modálních sloves
       * záměna zvratných tvarů, záměna pomocného slovesa //být// nebo spony        * záměna zvratných tvarů, záměna pomocného slovesa //být// nebo spony 
-      * **//​Problémem zůstává, jak řešit ​chybějící nebo přebývající pomocné sloveso v nekontaktní slovosledné pozici vůči slovesu ​vyznamovému – nabízí se stejné řešení jako u ostatních pomocných slov, je jen otázka, zda to nerozšířit i na kontaktní pozici.//​** ​+      * je-li chybějící nebo přebývající pomocné sloveso v nekontaktní slovosledné pozici vůči slovesu ​významovému,​ použijeme ​stejné řešení jako u ostatních pomocných slov, tj. pomocné sloveso přidáme nebo smažeme  ​
   * **@lex**: ​   * **@lex**: ​
     * chyby, u kterých je třeba provést záměnu lexémů (//autem mechanikem => automechanikem,​ pán => pan [Novák], kdy => kdyby //), nejde-li o pomocné slovo     * chyby, u kterých je třeba provést záměnu lexémů (//autem mechanikem => automechanikem,​ pán => pan [Novák], kdy => kdyby //), nejde-li o pomocné slovo
Řádek 315: Řádek 317:
   - Tokeny nelze vkládat před nebo za spojená slova (elementy mtok). Je tedy lepší nejdříve token vložit před nebo za chybně oddělené slovo a pak teprve chybně oddělená slova spojit. Více viz Chybně oddělená slova.   - Tokeny nelze vkládat před nebo za spojená slova (elementy mtok). Je tedy lepší nejdříve token vložit před nebo za chybně oddělené slovo a pak teprve chybně oddělená slova spojit. Více viz Chybně oddělená slova.
 ==== 4.8. Opravy posloupnosti slov ==== ==== 4.8. Opravy posloupnosti slov ====
 +
 +Více slov najednou opravujeme jen v nutných případech,​ jinak dáváme přednost opravám jednotlivých slov. Opravy více slov najednou provádíme z jiné stránky než opravy jednotlivých slov. Ze stránky **Text view** se na tuto stránku dostaneme po kliknutí na **Stand-off error annotation**. Opravy více slov se zaznamenávají do odděleného souboru v podobě odkazů na jednotlivé tokeny v textu. Tento soubor nenajdeme ve své složce, ale můžeme se na něj podívat ze stránky **Stand-off error annotation** po kliknutí na **edit raw XML file**. ​  
  
 === 4.8.1. Opravy slovosledu === === 4.8.1. Opravy slovosledu ===
  
-  * klikněte na Create Stand-off error annotation v Text view dole pod textem +Neopravujeme slovosled, který je jen stylisticky neobratný. Platí zásada minimální intervence: původní text by měl být v důsledku nesprávného slovosledu negramatický nebo těžko srozumitelný. 
-  * vyznačte myší ​souvislý úsek textu, ​němž chcete upravit slovosled + 
-  * úsek by být co nejkratší,​ neměby tedy obsahovat ​na začátku a na konci slova, která zůstanou po opravě na stejné pozici +  * slovosled opravujeme až po všech opravách jednotlivých slov v Text view 
-  * v rámečku Edit Annotation vpravo ​vyberte ​v položce Code kód WO +  * klikneme ​na Create Stand-off error annotation v Text view dole pod textem 
-  * položce Correction ​uveďte daný úsek textu se všemi provedenými opravami a s opraveným slovosledem +  * tak jako v Text view si nad textem můžeme vybrat zobrazení, obvykle zvolíme tlačítko nejvíce vpravo (např. Lexically corrected form) 
-  * opravu uložte+  * slovosled opravujeme tak, že stiskneme klávesu **Alt** a myší ​zvýrazňujeme slova ve správném pořadí; chceme-li např. opravit //ještě líbí se mi klima Praze// na //ještě se mi líbí klima v Praze//, stiskneme **Alt**, zvýrazníme //se mi// a pak //​ještě//​ 
 +  * je také možné postupně ve správném pořadí klikáním se stisknutou klávesou **Alt** zvýrazňovat jednotlivá slova, nikoli úseky: se stisknutou klávesou **Alt** klikneme na postupně na //se//, //mi// a //ještě// 
 +  * vyznačované úseky nemusí dohromady tvořit souvislý ​úsek ly by být co nejkratší,​ neměly by tedy obsahovat slova, která zůstanou po opravě na stejné pozici 
 +  * uvolníme klávesu **alt** a v rámečku Edit Annotation vpravo ​vybereme ​v položce Code kód **WO** 
 +  * položku Correction ​ponecháme prázdnou 
 +  * opravu uložíme
  
 Takto můžeme opravovat i celou větu. Oproti přepsání věty do Target hypothesis to má tu výhodu, že uvádíme explicitně kód chyby. Takto můžeme opravovat i celou větu. Oproti přepsání věty do Target hypothesis to má tu výhodu, že uvádíme explicitně kód chyby.
Řádek 340: Řádek 349:
 === 4.9.1. Opravy slovosledu === === 4.9.1. Opravy slovosledu ===
  
-Slovosled opravujeme jen v nutných ​případech,​ kdy je původní text negramatický nebo těžko srozumitelný. Při opravách slovosledu přepisujeme celou větu v jejím konečném znění, po všech opravách.+Slovosled opravujeme ​tímto způsobem ​jen ve výjimečných ​případech,​ kdy je při opravě třeba přeformulovat celé dlouhé souvětí a opravu nelze rozumným způsobem provést způsobem popsaným výše v části Oprava posloupnosti slov.  
 + 
 +Nesnažíme se také opravovat slovosled, který je jen stylisticky neobratný. Platí zásada minimální intervence: ​původní text by měl být v důsledku nesprávného slovosledu ​negramatický nebo těžko srozumitelný. Při opravách slovosledu přepisujeme celou větu v jejím konečném znění, po všech opravách. ​
  
 V "Text View" klikněte dole pod textem na "​Zobrazit po větách",​ pak vlevo na číslo konkrétní věty. Objeví se rámeček "​Target Hypothesis",​ kam lze zapsat celou větu ve správném slovosledu. Uveďte její konečnou verzi, tj. po všech opravách i jednotlivých slov. V "Text View" klikněte dole pod textem na "​Zobrazit po větách",​ pak vlevo na číslo konkrétní věty. Objeví se rámeček "​Target Hypothesis",​ kam lze zapsat celou větu ve správném slovosledu. Uveďte její konečnou verzi, tj. po všech opravách i jednotlivých slov.

QR Code
QR Code skript_man:navod_k_anotaci (generated for current page)