====== Návod k anotaci žákovských textů v prostředí TEITOK ======
===== 1. Organizační záležitosti =====
==== 1.1. Přihlášení do systému TEITOK ====
=== 1.1.1. Projekt Skript 2015 ===
Přihlásíme se svým emailem a heslem na adrese http://utkl.ff.cuni.cz/teitok/emendace/.
Nemáte-li přístupové údaje, napište si o ně.
=== 1.1.2. Projekt CzeSL ===
Přihlásíme se svým emailem a heslem na adrese http://utkl.ff.cuni.cz/teitok/czesl/.
Nemáte-li přístupové údaje, napište si o ně.
==== 1.2. Anotace textů rodilých mluvčích (Skript 2015) ====
=== 1.2.1. Výběr textů k anotaci ===
V nabídce na levé straně úvodní stránky klikněte na XML Files. Uvidíte pod sebou názvy složek, které odpovídají inciálám anotátorů. Měly by tam být i ty Vaše. Pokud nejsou, napište si o ně.
Texty k anotaci jsou ve dvou zvláštních složkách:
* _ROMI: 1689 romských textů (stav z 15.4.2019)
* _SKRIPT2012: 666 neromských textů (stav z 15.4.2019)
Dalších 325 textů ještě přibude, až u nich budou odstraněny technické problémy.
Texty si můžeme prohlížet a vybírat si z nich sami. Po kliknutí na název textu se otevře jeho přepis a sken rukopisu. Pokud Vám to pomůže při výběru nebo anotaci, základní metadata o žákovi a úkolu najdete zde:
[[https://docs.google.com/spreadsheets/d/18ZYEEGJnda0AGNemDc0BVIPfGh_8_80-X78TnVEwkfg/edit?usp=sharing|SKRIPT2015 – metadata]]
U vybraného textu klikneme na "rename" a v rámečku "New filename" nahradíme aktuální složku před lomítkem ("_ROMI" nebo "_SKRIPT2012") názvem své složky (tj. Vašimi iniciálami). Tím se text přemístí do Vaší složky. Kromě výběru textů z _ROMI a _SKRIPT2012 pracujte prosím jen ve svých složkách, systém sám nijak nechrání Vaše kolegy před zásahy do cizí složky.
=== 1.2.2. Odevzdávání textů ===
Texty, které budeme považovat za hotové, přesuneme do složky HOTOVO, kterou si vytvoříme uvnitř své složky takto: klik na "create new folder" a do rámečku za "Type in the path of the folder you want to create" uvedeme název své složky (Vaše iniciály), lomítko a název nové složky: HOTOVO. Vlastní přesunutí provedeme kliknutím na "rename" vlevo od příslušného textu a pak v rámečku "New filename" vložíme "HOTOVO", oddělené lomítky, mezi iniciály a název textu. Při měsíčních uzávěrkách se budou vyhodnocovat jen texty umístěné ve složkách "HOTOVO".
==== 1.3. Anotace textů nerodilých mluvčích (CzeSL) ====
* Jde o texty nerodilých mluvčích češtiny, studentů češtiny jako cizího jazyka. To je hlavní rozdíl ve srovnání s texty z korpusu SKRIPT2015.
* Otevřete si stránku [[http://utkl.ff.cuni.cz/teitok/czesl]] a přihlašte se svou emailovou adresou. Heslo je “teitok”, změňte si ho prosím.
* V seznamu XML souborů najdete složku czesl-old. Otevírání složky i souborů může být pomalé – složka obsahuje 5877 textů, které byly přepsány z rukopisů zhruba během minulých 10 let a dosud nebyly ručně neopraveny. Z těchto textů si můžete vybírat ty, které byste chtěli anotovat. Výběr provedete přesunem souboru do složky pojmenované Vašimi iniciálami takto:
* Po kliknutí na název textu se otevře jeho přepis a většinou i sken rukopisu.
* U vybraného textu klikneme na "rename" a v rámečku "New filename" nahradíme aktuální složku před lomítkem ("czesl-old") názvem své složky (tj. Vašimi iniciálami). Tím se text přemístí do Vaší složky. Kromě výběru textů z czesl-old pracujte prosím jen ve svých složkách, systém sám nijak nechrání Vaše kolegy před zásahy do cizí složky.
* Podobných textů k anotaci je ještě víc - texty bez metadat a s formálními chybami byly zatím odloženy.
* Soubory by měly být formálně v pořádku (při otevření by neměly hlásit chybu) a měly by už být vybaveny metadaty. U většiny souborů by se měl otevřít i sken rukopisu.
* Vaším úkolem je zkontrolovat přepis, text tokenizovat, opravit na rovinách dform, ort, gram a lex, podle potřeby upravit nebo doplnit název. Položka “nform” je určena pro automaticky provedené opravy, tu nechte prázdnou.
* Po přihlášení do projektu máte přístup nejen do své složky, ale i do složek Vašich kolegů, včetně těch, kteří přepisují nové texty. Buďte prosím opatrní, abyste texty v jiných složkách nepoškodily.
==== 1.4. Problémy, dotazy, nápady apod. ====
Neváhejte a pište, pokud možno do fóra [[https://groups.google.com/forum/?utm_medium=email&utm_source=footer#!forum/emendace|Emandace žákovských textů v TEITOKu]]. Nemáte-li do fóra přístup, napište si o něj.
===== 2. Formáty textu =====
==== 2.1. Skeny ====
Některé texty jsou dlouhé – až 6 rukopisných stránek, ale stránky se zobrazují vždy vpravo pod sebou a nenavazují na přepis. Můžete to napravit tím, že na patřičná místa v XML vložíte údaj o přechodu na novou stránku. Je nutné přitom využít elementy , které jsou uvedeny na začátku textu, za elementem , který označuje první stránku, např. takto:
Přechod na druhou stránku označíme přemístěním druhého elementu, jinak nijak neupravovaného, na příslušné místo v textu. Elementem však nesmíme rozdělit token (element ...).
Pokud je u textů uvedeno v metadatech "text medium: typed", tak k textu sken nepřipojujeme a automaticky vygenerovaný odkaz na sken v hlavičce dokumentu by být neměl (je-li, bude odstraněno hromadně).
CzeSL: Pokud se k textu neotevře zároveň i sken, nejčastější příčinou bude to, že se skládá z více stránek. Zkuste soubor otevřít ve formátu XML a odkaz na sken upravte. Velmi často stačí např. nahradit řádek w-6" ort="kočkovité">kočkovíté''.
Soubor XML lze editovat před tokenizací (//This XML has not been tokenized yet, and only the text is shown below. To edit, click **here**.//) nebo po tokenizaci. Po tokenizaci si lze navíc nechat zobrazit celý text nebo jen nejbližší okolí konkrétního slova (//Edit the information about each word of this file by clicking on the word in the text below, or click **here** to edit the raw XML.//)
===== 3. Přepisy textu =====
==== 3.1. Anonymizace ====
Z přepisu by neměla být zřejmá identita autora, jeho příbuzných, spolužáků, adresa, datum narození, případně ani jméno instituce s autorem nějak spojené. Proto by v přepisu měla být skutečná vlastní jména a další osobní údaje, která mohou autora identifikovat, nahrazena zástupnými jmény. Zástupná jména jsou v přepisu uvedena šedě. Pokud v přepisu narazíme na neanonymizované vlastní jméno (osoby, místa, instituce), datum narození apod., nahradíme ho podle pokynů na str. 10 a 11 dokumentu [[http://utkl.ff.cuni.cz/~rosen/public/manual_prepis_textu_Romove.pdf|Manuál pro přepis psaných materiálů]]. To je třeba udělat přímo v XML – viz [[skript_man:navod_k_anotaci#Opravy textů ve formátu XML]]. Datum sepsání textu necháváme neanonymizované. Nevíte-li si rady, odložte zatím takový text na později nebo si řekněte o pomoc v tomto fóru.
==== 3.2. Opravy přepisu ====
Někdy zjistíte, že přepis neodpovídá skenu. V takovém případě je žádoucí přepis opravit. Přísně však odlišujeme opravu přepisu (@pform) a anotaci chybných tvarů (@form). Zde řešíme jen opravy přepisu.
V přepisu nejsou vyznačeny všechny charakteristiky rukopisu, např. konce řádků. Při kontrole přepisu a emendaci se nevěnujeme řádkování textu ani my, s výjimkou případů, kdy je koncem řádku jedno slovo v přepisu rozděleno do dvou. Pokud je za první částí slova na konci řádku spojovník, jde o chybu přepisu a takové slovo by mělo být správně přepsáno jako jeden token. Pokud spojovník chybí, považujeme to za pravopisnou chybu a řešíme jako součást emendace (viz Opravy hranic slov). V obou případech vložíme na místo, kde bylo slovo rozděleno koncem řádku, značku
.
Přepis se nejsnadněji opravuje před tokenizací. Viz [[http://utkl.ff.cuni.cz/dokuwiki/doku.php?id=skript_man:navod_k_anotaci#opravy_textu_ve_formatu_xml|Opravy textu ve formátu XML]]. Stačí se přitom držet zavedených [[https://docs.google.com/document/d/1kvAKQphP5iaw0XT_1q1DvLIx9IsiO2u-u33_HAT2utg/edit?usp=sharing|transkripčních značek]].
Dále popisujeme opravy přepisu po tokenizaci.
=== 3.2.1. Přeškrtnutý text ===
* V přepisu by slovo přeškrtnuté v rukopisu měl být přeškrtnuté taky. Např. takto:
přeškrtnuto
* Ze stránky Edit Token klikneme na "edit context XML", ale musíme zachovat značky , např.:
přeškrtnuto
* Pokud je něco nečitelné, patří tam v přepisu značka . Máme i značky pro přeškrtnuté nečitelné:
* Máte-li takových oprav hodně, můžete využít klávesové zkratky - viz pasáž o programu AHK v [[https://docs.google.com/document/d/1SKaaePaAcNs8vLHjzhdKD_wwR1m04X-s4GMaBRJKXcQ/edit#heading=h.ni6frzpos1s1|návodu pro přepis]] (jen pro systém MS Windows).
* Přeškrtnutý text (''"strikethrough">...'') by neměl být ve @form.
* Škrtnutím opravené písmeno ve slově se zapisuje jako součást tokenu pro celé slovo:
šlyi.
=== 3.2.2. Slova chybně přepsaná bez oddělovacích mezer ===
Text chybně přepsaný bez mezer opravíme tak, že vložíme mezery a doplníme značky pro tokeny. Nedoplňujeme atributy "id=", TEITOK si tokeny očísluje sám.
Procházkabylomu
=>
Procházka bylo mu.
=== 3.2.3. Mezery chybně rozdělující slovo ===
* U slova chybně rozděleného mezerami klikneme na token za mezerou a pak dole na "merge left to ...". Uložíme. Máme ze dvou tokenů jeden. V @pform pak vymažeme mezeru mezi oběma slovy a znovu uložíme. Totéž můžeme udělat i přímo ve formátu XML.
* Pokud jsou mezi rozdělenými slovy nějaké transkripční značky, tak je jednoduše do jednoho tokenu spojit nelze. Musíme to udělat v souboru XML. V následujícím příkladu spojujeme //jedno hubky//, které jsou oddělené značkou . Mezera za "jedno" v opravené verzi je důležitá. Uložte. V Edit token doplňte @form, tedy "jedno hubky" (při tomhle způsobu opravy tokenů se nevytvoří sama) a v @ort ta dvě slova spojte: "jednohubky".
jedno hubky
=>
jedno hubky
=== 3.2.4. Rozluštěná slova ===
* Pokud rozluštíte slovo nebo několik slov, která jsou přepsána jako , nahraďte značku rozpoznaným slovem (slovy), označeným(i) jako "tok".
* Jde to částečně i přes "Edit Token", ale je to komplikovanější: Klikněte na slovo těsně před nebo za [...] (), na stránce Edit Token klikněte na "edit token after (resp. before) separate" a na nové stránce vložte rozpoznané slovo do rámečku pro přepis místo prázdného elementu . Uložte, ale na přidané slovo znovu klikněte a na stejné stránce Edit Token klikněte tentokrát na "edit kontext XML". Najděte značku a smažte ji. Uložte.
===== 4. Anotace =====
==== 4.1. Zásady anotace ====
V této části se věnujeme opravám textu po opravách žáka (podle @form) a po tokenizaci. Opravy přepisu (@pform) jsou popsány jinde.
Při anotaci se snažíme minimalizovat zásahy. Cílem je opravit text tak, aby byl pokud možno srozumitelný, gramaticky správný a podle spisovné normy. Neusilujeme o stylistickou vybroušenost ani o typografickou preciznost. Např. přímou řeč stačí oddělit čárkou, nemusíme doplňovat dvojtečku a uvozovky. Podobně i věty řazené za sebou bez interpunkce a počátečních velkých písmen od sebe oddělujeme čárkou nebo středníkem místo tečky a velkého písmene, pokud to nebrání porozumění.
==== 4.2. Postup ====
Po kontrole anonymizace a přepisu je třeba text rozdělit na slova. Klikneme na "Tokenize the text" dole pod textem.
V tokenizovaném textu klikneme na chybné slovo. Otevře se stránka "Edit Token". Zajímat nás budou tyto položky:
| pform | Transcription (Inner XML) | přepis včetně transkripčních značek |
| form | Written form | přepis bez transkripčních značek |
| dform | Rectified non-standard form | oprava nespisovného tvaru |
| ort | Orthographically corrected form | pravopisná a morfematická oprava |
| gram | Morphosyntactically corrected form | morfosyntaktická oprava |
| lex | Lexically corrected form | lexikální oprava |
| subs | Subsequent correction | následná oprava (jen CzeSL) |
Každá položka je v souboru XML zapsána jako atribut elementu tok, pojmenovaný zkratkou v prvním sloupci. V dalším textu budeme na tyto položky odkazovat jako na atributy XML. Např. @ort odkazuje na atribut a položku "ort".
Při opravě vidíme nejčastěji vyplněnou jen položku @pform. Pokud je tvar opatřen nějakými transkripčními značkami, je automaticky vyplněna také položka @form. Většinou je prázdná a nevyplňujeme ji. Nevyplňujeme ani položky doplňované automaticky v dalším zpracování: opos, olemma, gpos, lpos a llemma.
Opravu zapisujeme nejčastěji na rovině pravopisných a morfématických oprav, tedy do položky @ort, někdy do @gram nebo @lex. Někdy je ale třeba tvar opravovat postupně na více rovinách. Opravy daného slova musíme nakonec uložit.
Nevyplněné položky se při dalším zpracování doplní údaji z výše uvedených rovin. Pokud chcete na nějaké rovině uvést, že zde token neexistuje, zapište dva spojovníky (--). Takovým způsobem lze např. v @ort vymazat interpunkci navíc.
Pokud je slovo nesrozumitelné, nedává smysl ani v širším kontextu a žádný tvar, kterým by se dalo nahradit, vás nenapadá, uveďte do položky @ort, @gram nebo @lex tři otazníky (???). Neexistující tvar, který se vám nedaří opravit, označte třemi otazníky v položce @ort. Jde-li o existující, ale morfosyntakticky chybný tvar, uveďte tři otazníky v položce @gram. Správně utvořené slovo ve správném tvaru, včetně autorských neologismů, které však v kontextu nedává smysl a nelze ho ničím nahradit, označte třemi otazníky v položce @lex.
Pokud je nesrozumitelná celá věta, i když třeba obsahuje tvary, které jsou samy o sobě korektní nebo nějak interpretovatelné, označte třemi otazníky celou větu (viz níže Opravy na úrovni věty / Poznámky ke větám).
==== 4.3. Na jaké rovině tvar opravit? ====
* **@dform**: chyby v pravopisu nespisovných tvarů, např. //dobrey => dobrej//
* **@ort** – chyby:
* v diakritice((pokud nejde o lexikální chybu typu pán => pan)) a i/y (//úklízely => uklízeli//); **//CzeSL//**: jde-li o chybu v afixu, chybný tvar je nesprávný jen v kontextu a sám o sobě je správně utvořený, patří chyba do @gram
* ve velikosti písmen((neopravujeme slova nebo dokonce celé texty zapsané velkými písmeny))
* v hranicích slov (//na jednou => Najednou//)
* v interpunkci (tečky, čárky, dvojtečky, středníky, uvozovky, včetně teček za řadovou číslovkou), ú/ů (//ůkol//)
* v užití nespisovných a nářečních tvarů (//velké [města], dobrej, hodný [holky]//); **//CzeSL//**: pokud lze tvar sám o sobě interpretovat jako spisovný, patří chyba do @gram, např. //lidi => lidé//
* tvary, které jsou chybně utvořené, i když přísně vzato pravopisnou chybu nevykazují, např. //babičkem => babičkou, pracovám => pracuju, kůněm => koněm//
* záměna za tvar, který je nesprávný jen v kontextu, ale sám o sobě je správně utvořený a vysloví se jinak než jeho oprava, patří do @gram; **//CzeSL//**: podmínky jiné výslovnosti odpadá, do @gram patří i chyba ve tvaru, který je nesprávný jen v kontextu, ale sám o sobě je správně utvořený
* **@gram**:
* chyby ve shodě, rekci a v dalších morfosyntaktických jevech, pokud jsou slyšet, nejde o chyby v diakritice ani nespisovné nebo nářeční tvary; **//CzeSL//**: chyby ve shodě, rekci a v dalších morfosyntaktických jevech nemusí být slyšet, může jít o diakritiku i nespisovné nebo nářeční tvary
* nejčastěji jde o chybu v morfologické kategorii pádu, čísla, rodu, osoby, ale i stupně (adjektiv a adverbií)
* chybně (ne)vokalizované předložky
* chybějící nebo přebývající pomocná slova: pomocná a modální slovesa, předložky, spojky a krátké zvratné tvary //se// a //si//
* chybějící a přebývající předložky, spojky a zvratné částice doplňujeme nebo mažeme jako samostatné tokeny
* kategorie pomocných sloves se týká pomocných sloves v minulém a budoucím čase, kondicionálu i trpném rodu, a také spony
* když pomocné sloveso přebývá (//děti jsou přišly//), spojíme ho s významovým slovesem na @gram do elementu mtok
* když pomocné sloveso chybí, rozdělíme významové sloveso na dtoks
* příklady typu //budu napsat => napíšu// řešíme spojením do mtok na @gram, záměnu vidu zde ignorujeme
* záměnu předložky nebo spojky za jinou předložku nebo spojku řešíme na @lex, stejně tak i záměnu modálních sloves
* záměna zvratných tvarů, záměna pomocného slovesa //být// nebo spony
* je-li chybějící nebo přebývající pomocné sloveso v nekontaktní slovosledné pozici vůči slovesu významovému, použijeme stejné řešení jako u ostatních pomocných slov, tj. pomocné sloveso přidáme nebo smažeme
* **@lex**:
* chyby, u kterých je třeba provést záměnu lexémů (//autem mechanikem => automechanikem, pán => pan [Novák], kdy => kdyby //), nejde-li o pomocné slovo
* opravy slovesného vidu
* **@subs**:
* opravy forem, které byly v lokálním kontextu původního textu správně a je nutné je opravit jen s ohledem na chybu v jiném slově
* obvykle jde o odlišnou syntaktickou vazbu v opraveném textu, např. //do školy => ve škole, podpořit někoho => pomáhat někomu//
* záměnu předložky a slovesa řešíme v těchto případech jako chybu @lex, záměnu gramatických kategorií slovesa jako chybu @gram
==== 4.4. Postupné opravy ====
Opravy řešíme postupně po rovinách v pořadí od rektifikace nespisovných tvarů po lexikum. Např. //[znám] novák// opravíme v @ort na //[znám] Novák// a pak v @gram na //[znám] Nováka//. Podobně v příkladu //jeli jsme na prahu => jeli jsme do Prahy // opravíme //prahu => Prahu// jako @ort, //na => do// jako @lex, a //Prahu => Prahy// jako @subs.
Někdy ale postupné opravy anotaci zbytečně komplikují. Třeba v příkladu //k naším životem => pro náš život// by se jako @gram mohlo opravit //životem => životu// a //naším => našemu//, pak na @lex //k => pro// a na @subs //životu => život// a //našemu => náš//. V tomto případě můžeme meziopravu na @gram vypustit a opravovat jen na @lex a @subs.
==== 4.5. Nespisovná čeština a nářečí ====
V @ort uvádíme opravy podle spisovné normy (viz např. http://prirucka.ujc.cas.cz), např.
//**ovocný** stromy => **ovocné** stromy// \\
//**hodnej** kluk => **hodný** kluk//
Zároveň ale můžeme opravit chybně zapsaný nespisovný tvar při zachování jeho nespisovné podoby. Stejně jako u příkladů //ovocný stromy// a //hodnej kluk// opravíme podle spisovné normy na @ort, ale na rovině @dform pro rektifikaci nestandardních tvarů můžeme zapsat nespisovný tvar tak, aby bylo možné ho snáze identifikovat a vyhledávat. V následujících příkladech ukazujeme tento postup:
^ @form ^ @dform ^ @ort |
| //všecky ty **hloupí** blbosti// | //všecky ty **hloupý** blbosti// | //všecky ty **hloupé** blbosti// |\\
| //mám ráda tancování, ... a **takoví**// | //mám ráda tancování, ... a **takový**// | //mám ráda tancování, ... a **takové**//((Na lexikální rovině můžeme uvést //takové věci//.)) |
Rektifikace nespisovných tvarů uvádíme jen v případech, kdy je k tomu dobrý důvod a kandidát na rektifikovanou podobu je nasnadě. Mělo by být zřejmé, že jde opravdu o obecnou češtinu nebo nářečí, nikoli o překlep, dyslexii apod., např. //kopim si pití//, přičemž nejde o autora z Hané. Zachováváme přitom morfologické kategorie tvaru.
Nespisovné tvary, rektifikované nebo nerektifikované, pak opravujeme na spisovné na rovině @ort, i když z jiného pohledu by mohlo jít i o chybu morfosyntaktickou (//hloupý blbosti//) nebo lexikální (//voknem, bejt//). Nespisovné //lexémy// nahrazujeme (pravděpodobnými) spisovnými ekvivalenty v @lex jen v případech, kdy by mohly být nesrozumitelné.
Další příklady s rektifikací:
^ @form ^ @dform ^ @ort |
| //**did** on za to nemůže// | //**dyť** on za to nemůže// | //**vždyť** on za to nemůže// |
| //**noví** holky// | //**nový** holky// | //**nové** holky// |
| //a já **jsu** synek z Polanky// | //a já **su** synek z Polanky// | //a já **jsem** synek z Polanky// |
| //**doprovidijou**// | //**doprovodijou**// | //**doprovodí**// |
Příklady bez rektifikace:
^ @form ^ @ort |
| //ty **si**// | //ty **jsi**// |
| //s **nim**// | //s **ním**// |
| //**mladýma** **klukama**// | //**mladými** **kluky**// |
| //**nový** holky// | //**nové** holky// |
| //**kopit**// | //**koupit**// |
| //**mam** práci// | //**mám** práci// |
| //**tátovo** brejle// | //**tátovy** brejle// |
| //**mámy** šaty// | //**máminy** šaty// |
| //**najist ji dam**// | //**najíst jí dám**// |
==== 4.6. Opravy hranic slov ====
Chybně spojená a rozdělená slova považujeme za pravopisnou chybu.
=== 4.6.1. Chybně spojená slova ===
Chybně spojená slova (např. //řeklsi//) stačí přepsat odděleně s mezerou v @ort, uložit a kliknout pod textem dole na "Split tokens based on ort". Původní token (stále označený jako element "tok") se tak rozdělí na více podtokenů, označených jako "dtok". U podtokenů je oddělená část původně spojeného tvaru uvedena jako @form daného podtokenu ("D-Token" na stránce "Edit Token") a lze ji dále opravovat.
Funkci lze na daný text použít jen jednou. Opravíme tedy nejprve všechna spojené slova v textu v @ort a až nakonec klikneme na funkci "Split tokens based on ort".
=== 6.6.2. Chybně oddělená slova ===
Chybně oddělená slova (např. //s kamarádit//) opravíme na @ort tak, že klikneme na slovo za mezerou a zvolíme "create mtok left: 1" (pokud spojujeme s jedním tokenem vlevo) nebo "create mtok left: 2" (pokud spojujeme se dvěma tokeny vlevo). V @ort pod "Multi-token value (newmtok)" pak vyplníme @ort.
Funkce "create mtok ..." nefunguje, pokud jsou ve spojovaném úseku nějaké transkripční značky. Např. //na ne večeřím//, které je v XML uvedeno jako:
na ne večeřím
je třeba opravit přímo v XML na
na ne večeřím
Hodnotu @ort lze doplnit i na stránce "Edit token" v sekci "Multi-token value".
Výsledek opravy se po kliknutí na "Pravopisné opravy" v "Text View" zobrazí bez mezery mezi //na// a //večeřím//.
Se spojeným slovem (elementem mtok) však nelze zacházet stejně jako s jinými nespojenými slovy. Např. za spojené slovo se funkcí "Insert token" nedá přidat chybějící interpunkce. Lze to obejít tak, že si zobrazení přepneme na Přepis a interpunkci přidáme za poslední spojené slovo. Interpunkce se ale přidá dovnitř elementu mtok a v zobrazení Pravopisné opravy není vidět. Když tímhle postupem spojíme např. //slovo1// se //slovem2// a za //slovo2// přidáme čárku, vypadá XML (bez atributů id) takto:
slovo1 slovo2 slovo3
Můžeme to opravit v XML tak, že tu přidanou čárku přesuneme na konec elementu mtok:
slovo1 slovo2 slovo3
Editování XML si ušetříme, když postup obrátíme: nejdřív za //slovo2// přidáme čárku a teprve potom spojíme //slovo2// se //slovem1//. Dostaneme tak správnou verzi rovnou.
=== 4.6.3. Nahrazení jednoho slova více slovy a naopak ===
Jde-li o lexikální opravu, použijeme funkci "split in dtoks" na @lex. Chybějící předložku ale doplňujeme na @gram jako další token pomocí funkce "insert tok before: separate". Chceme-li naopak předložku smazat, uvedeme na příslušné rovině (@gram) dva spojovníky (--).
==== 4.7. Vymazání a vložení tokenu ====
U interpunkce jde vždy o chybu pravopisnou (@ort), jindy může jít i o chybu morfosyntaktickou nebo lexikální. Pokud je konstrukce bez doplnění negramatická (část slovesného tvaru, předmět u slovesa //dát//, //mít// apod.), byla by to spíše morfosyntaktická chyba, pokud je bez doplnění nesrozumitelná, byla by to chyba spíše lexikální. Za lexikální chybu považujeme také bezdůvodné opakování slova. Každopádně to má smysl jen tehdy, pokud máme relativní jistotu, co doplnit.
Mazat a přidávat můžeme i podtokeny (elementy dtok). Např. v //dočkat se naněj// rozdělíme nejdřív //naněj// na dva elementy dtok (vz Chybně oddělená slova). V dtok předložky pak zapíšeme do @gram dva spojovníky (--, viz Vymazání tokenu) a zájmeno //něj// analogicky opravíme na //ho//. Ale //ho// musíme zapsat i do @gram elementu tok, jinak bude v zobrazení morfosyntaktických chyb na Text view stále jen //na něj//.
=== 4.7.1. Vymazání tokenu ===
Na příslušné rovině zapište dva spojovníky (--).
=== 4.7.2. Vložení tokenu ===
Slova do textu doplňujeme jen v nutných případech, kdy by jinak text byl negramatický nebo zcela nesrozumitelný a kdy víme s dostatečnou jistotou, co doplnit. Je-li třeba doplnit více než jedno slovo, snažíme se minimalizovat jejich počet.
- Klikněte na slovo, za které chcete něco vložit. Otevře se stránka "Edit token".
- Pod všemi položkami najdete různé možnosti, jak tokeny vkládat, spojovat a rozdělovat. Má-li být token vložen bez oddělovací mezery (např. u interpunkce), vyberte si možnost "insert tok after: attached" (klikněte na červené slovo "attached"). Objeví se nová stránka "Edit token", tentokrát je ale v @pform značka ("empty element").
- Na příslušnou rovinu (např. @ort) vložíme nový token (např. chybějící čárku). Stiskneme Enter nebo klikneme na Save.
- Opravu uvidíme, když klikneme v Možnostech zobrazení na Pravopisné opravy. V souboru XML je vložená tečka zaznamenána např. takto: "w-60" ort=",". Značka označuje, že na daném místě nebylo původně nic.
- Můžete tak vkládat libovolné slovo, ale třeba i uvozovky, i těsně před slovo ("before" místo "after"), nebo pomlčky, oddělené mezerou ("separate" místo "attached").
- Tokeny nelze vkládat před nebo za spojená slova (elementy mtok). Je tedy lepší nejdříve token vložit před nebo za chybně oddělené slovo a pak teprve chybně oddělená slova spojit. Více viz Chybně oddělená slova.
==== 4.8. Opravy posloupnosti slov ====
Více slov najednou opravujeme jen v nutných případech, jinak dáváme přednost opravám jednotlivých slov. Opravy více slov najednou provádíme z jiné stránky než opravy jednotlivých slov. Ze stránky **Text view** se na tuto stránku dostaneme po kliknutí na **Stand-off error annotation**. Opravy více slov se zaznamenávají do odděleného souboru v podobě odkazů na jednotlivé tokeny v textu. Tento soubor nenajdeme ve své složce, ale můžeme se na něj podívat ze stránky **Stand-off error annotation** po kliknutí na **edit raw XML file**.
=== 4.8.1. Opravy slovosledu ===
Neopravujeme slovosled, který je jen stylisticky neobratný. Platí zásada minimální intervence: původní text by měl být v důsledku nesprávného slovosledu negramatický nebo těžko srozumitelný.
* slovosled opravujeme až po všech opravách jednotlivých slov v Text view
* klikneme na Create Stand-off error annotation v Text view dole pod textem
* tak jako v Text view si nad textem můžeme vybrat zobrazení, obvykle zvolíme tlačítko nejvíce vpravo (např. Lexically corrected form)
* slovosled opravujeme tak, že stiskneme klávesu **Alt** a myší zvýrazňujeme slova ve správném pořadí; chceme-li např. opravit //ještě líbí se mi klima v Praze// na //ještě se mi líbí klima v Praze//, stiskneme **Alt**, zvýrazníme //se mi// a pak //ještě//
* je také možné postupně ve správném pořadí klikáním se stisknutou klávesou **Alt** zvýrazňovat jednotlivá slova, nikoli úseky: se stisknutou klávesou **Alt** klikneme na postupně na //se//, //mi// a //ještě//
* vyznačované úseky nemusí dohromady tvořit souvislý úsek a měly by být co nejkratší, neměly by tedy obsahovat slova, která zůstanou po opravě na stejné pozici
* uvolníme klávesu **alt** a v rámečku Edit Annotation vpravo vybereme v položce Code kód **WO**
* položku Correction ponecháme prázdnou
* opravu uložíme
Takto můžeme opravovat i celou větu. Oproti přepsání věty do Target hypothesis to má tu výhodu, že uvádíme explicitně kód chyby.
Stand-off anotace ale má tu nevýhodu, že oprava je vidět jen na stránce Stand-off annotation, po kliknutí na Create Stand-off error annotation. I proto je důležité opravovat tímto způsobem jen slovosled, vycházet tedy ze oprav provedených u jednotlivých tokenů.
=== 4.8.2. Opravy konstrukcí ===
Stand-off anotaci můžeme využít i pro opravy konstrukcí, které nelze dost dobře zvládnout opravami jednotlivých slov. Např. //bratr a sestra jsou moc různí// tak můžeme opravit na //bratr a sestra se hodně liší// tak, že kódem CONSTR vyznačíme a opravíme úsek //jsou moc různí//.
=== 4.8.3. Označení problémových úseků ===
Stand-off anotaci můžeme využít i pro označení nesrozumitelných a tedy neopravitelných úseků. Zvolíme kód PROBLEM. Považujte prosím tuhle možnost za nouzové řešení, kdy opravdu nelze anotovat jinak.
==== 4.9. Opravy na úrovni věty ====
=== 4.9.1. Opravy slovosledu ===
Slovosled opravujeme tímto způsobem jen ve výjimečných případech, kdy je při opravě třeba přeformulovat celé dlouhé souvětí a opravu nelze rozumným způsobem provést způsobem popsaným výše v části Oprava posloupnosti slov.
Nesnažíme se také opravovat slovosled, který je jen stylisticky neobratný. Platí zásada minimální intervence: původní text by měl být v důsledku nesprávného slovosledu negramatický nebo těžko srozumitelný. Při opravách slovosledu přepisujeme celou větu v jejím konečném znění, po všech opravách.
V "Text View" klikněte dole pod textem na "Zobrazit po větách", pak vlevo na číslo konkrétní věty. Objeví se rámeček "Target Hypothesis", kam lze zapsat celou větu ve správném slovosledu. Uveďte její konečnou verzi, tj. po všech opravách i jednotlivých slov.
Pokud odstavec textu obsahuje více vět, je třeba text na věty nejprve rozdělit, viz Rozdělení odstavců na věty.
=== 4.9.2. Poznámky ke větám ===
Ke každé větě lze připojit i poznámku. V "Text View" klikněte dole pod textem na "Zobrazit po větách", pak vlevo na číslo konkrétní věty. Do rámečku "Note" můžete zapsat ???, pokud je věta zcela nesrozumitelná a lze opravit třeba jen pravopisnou podobu slov. Můžete vložit i jinou relevantní poznámku.
Pokud odstavec textu obsahuje více vět, je třeba text na věty nejprve rozdělit, viz Rozdělení odstavců na věty.
=== 4.9.3. Rozdělení odstavců na věty ===
Hranice vět v běžných případech nemusíte vůbec řešit. Pokud byste ale u některé věty v textu chtěli opravit slovosled, nebo k ní uvést poznámku, je třeba hranice věty v textu (XML) vyznačit. Začátek a konec věty se označuje značkami a . Po tokenizaci se hranice vět shodují s hranicemi odstavců. Za každým tedy následuje a každému
předchází . Obsahuje-li odstavec více vět, je třeba provést níže uvedený postup.
V "Text View" dole pod "Admin Options" a "Custom Actions" najdete volbu "Split (further) into sentences". Po kliknutí by se text v odstavcích měl rozdělit na věty. Automaticky se ale vyřeší jen jednoduché případy. Pokud v textu chybí větná interpunkce a Vy usoudíte, že tam hranice věty má být, je třeba vložit do XML "pomocnou" značku /s/ a "Split (further) into sentences" spustit znovu. Pokud se odstavec naopak rozdělí na věty v místech, kam žádná hranice vět nepatří (např. po řadových číslovkách nebo iniciálech), je možné značky a na příslušném místě v XML smazat. Nerozdělujte pak ale text na věty automaticky znovu, značky by se tam znovu vrátily.