Toto je starší verze dokumentu!
Obsah
Návod k anotaci žákovských textů v prostředí TEITOK
1. Organizační záležitosti
1.1. Přihlášení do systému TEITOK
1.1.1. Projekt SKRIPT2015
Přihlásíme se svým emailem a heslem na adrese http://utkl.ff.cuni.cz/teitok/emendace/. Nemáte-li přístupové údaje, napište si o ně.
1.1.2. Projekt CzeSL
Přihlásíme se svým emailem a heslem na adrese http://utkl.ff.cuni.cz/teitok/czesl/. Nemáte-li přístupové údaje, napište si o ně.
1.2. Anotace textů rodilých mluvčích (Skript 2015)
1.2.1. Výběr textů k anotaci
V nabídce na levé straně úvodní stránky klikněte na XML Files. Uvidíte pod sebou názvy složek, které odpovídají inciálám anotátorů. Měly by tam být i ty Vaše. Pokud nejsou, napište si o ně.
Texty k anotaci jsou ve dvou zvláštních složkách:
- _ROMI: 1689 romských textů (stav z 15.4.2019)
- _SKRIPT2012: 666 neromských textů (stav z 15.4.2019)
Dalších 325 textů ještě přibude, až u nich budou odstraněny technické problémy.
Texty si můžeme prohlížet a vybírat si z nich sami. Po kliknutí na název textu se otevře jeho přepis a sken rukopisu. Pokud Vám to pomůže při výběru nebo anotaci, základní metadata o žákovi a úkolu najdete zde: SKRIPT2015 – metadata
U vybraného textu klikneme na „rename“ a v rámečku „New filename“ nahradíme aktuální složku před lomítkem („_ROMI“ nebo „_SKRIPT2012“) názvem své složky (tj. Vašimi iniciálami). Tím se text přemístí do Vaší složky. Kromě výběru textů z _ROMI a _SKRIPT2012 pracujte prosím jen ve svých složkách, systém sám nijak nechrání Vaše kolegy před zásahy do cizí složky.
1.2.2. Odevzdávání textů
Texty, které budeme považovat za hotové, přesuneme do složky HOTOVO, kterou si vytvoříme uvnitř své složky takto: klik na „create new folder“ a do rámečku za „Type in the path of the folder you want to create“ uvedeme název své složky (Vaše iniciály), lomítko a název nové složky: HOTOVO. Vlastní přesunutí provedeme kliknutím na „rename“ vlevo od příslušného textu a pak v rámečku „New filename“ vložíme „HOTOVO“, oddělené lomítky, mezi iniciály a název textu. Při měsíčních uzávěrkách se budou vyhodnocovat jen texty umístěné ve složkách „HOTOVO“.
1.3. Anotace textů nerodilých mluvčích (CzeSL)
* Jde o texty nerodilých mluvčích češtiny, studentů češtiny jako cizího jazyka. To je hlavní rozdíl ve srovnání s texty z korpusu SKRIPT2015.
* Otevřete si stránku http://utkl.ff.cuni.cz/teitok/czesl a přihlašte se svou emailovou adresou. Heslo je “teitok”, změňte si ho prosím.
* V seznamu XML souborů najdete složku czesl-old. Otevírání složky i souborů může být pomalé – složka obsahuje 5877 textů, které byly přepsány z rukopisů zhruba během minulých 10 let a dosud nebyly ručně neopraveny. Z těchto textů si můžete vybírat ty, které byste chtěli anotovat. Výběr provedete přesunem souboru do složky pojmenované Vašimi iniciálami takto:
- Po kliknutí na název textu se otevře jeho přepis a většinou i sken rukopisu.
- U vybraného textu klikneme na „rename“ a v rámečku „New filename“ nahradíme aktuální složku před lomítkem („czesl-old“) názvem své složky (tj. Vašimi iniciálami). Tím se text přemístí do Vaší složky. Kromě výběru textů z czesl-old pracujte prosím jen ve svých složkách, systém sám nijak nechrání Vaše kolegy před zásahy do cizí složky.
* Podobných textů k anotaci je ještě víc - texty bez metadat a s formálními chybami byly zatím odloženy.
* Soubory by měly být formálně v pořádku (při otevření by neměly hlásit chybu) a měly by už být vybaveny metadaty. U většiny souborů by se měl otevřít i sken rukopisu.
* Vaším úkolem je zkontrolovat přepis, text tokenizovat, opravit na rovinách dform, ort, gram a lex, podle potřeby upravit nebo doplnit název. Položka “nform” je určena pro automaticky provedené opravy, tu nechte prázdnou.
* Po přihlášení do projektu máte přístup nejen do své složky, ale i do složek Vašich kolegů, včetně těch, kteří přepisují nové texty. Buďte prosím opatrní, abyste texty v jiných složkách nepoškodily.
1.4. Problémy, dotazy, nápady apod.
Neváhejte a pište, pokud možno do fóra Emandace žákovských textů v TEITOKu. Nemáte-li do fóra přístup, napište si o něj.
2. Formáty textu
2.1. Skeny
Některé texty jsou dlouhé – až 6 rukopisných stránek, ale stránky se zobrazují vždy vpravo pod sebou a nenavazují na přepis. Můžete to napravit tím, že na patřičná místa v XML vložíte údaj o přechodu na novou stránku. Je nutné přitom využít elementy <pb …/>, které jsou uvedeny na začátku textu, za elementem <pb …>, který označuje první stránku, např. takto:
<pb facs="bu5czilbar_02_1-1.jpg" id="e-1" admin="1"/> <pb facs="bu5czilbar_02_1-2.jpg" id="e-2" admin="1"/>
Přechod na druhou stránku označíme přemístěním druhého elementu, jinak nijak neupravovaného, na příslušné místo v textu. Elementem <pb …/> však nesmíme rozdělit token (element <tok >…</tok>).
Pokud je u textů uvedeno v metadatech „text medium: typed“, tak k textu sken nepřipojujeme a automaticky vygenerovaný odkaz na sken v hlavičce dokumentu by být neměl (je-li, bude odstraněno hromadně).
CzeSL: Pokud se k textu neotevře zároveň i sken, nejčastější příčinou bude to, že se skládá z více stránek. Zkuste soubor otevřít ve formátu XML a odkaz na sken upravte. Velmi často stačí např. nahradit řádek <pb facs=„AA_CH_003.jpg“ id=„e-1“ admin=„1”/> dvěma řádky, kde jen za název souboru se skenem přidáte znaky “a” a “b” (viz příklad). Mohou být i delší než dvě rukopisné stránky a jejich skeny jsou označené analogicky dalšími písmeny abecedy.
<pb facs="AA_CH_003a.jpg" id="e-1" admin="1”/> <pb facs="AA_CH_003b.jpg" id="e-1" admin="1”/>
2.2. Formát XML
Naskenované rukopisy jsou přepsány do elektronické podoby a uloženy v TEITOKu ve formátu XML (úvod viz např. heslo XML ve Wiki). TEITOK je zobrazuje, edituje, ukládá a prohledává tak, že se o tento formát většinou nemusíme zajímat. S některými problémy si však neporadí, a proto je vhodné se seznámit s tím, jak se v prostředí TEITOK zaznamenávají údaje o vlastnostech rukopisu (škrtání, vsuvky), anonymizovaná vlastní jména, dělení na slova (tokenizace) a další chybová i lingvistická anotace. Pomůže nám to opravovat některé typy chyb v přepisu a tokenizaci, upravovat a doplňovat anonymizované údaje, a anotovat složitější chyby.
Kromě vlastního textu jsou ve formátu XML značky (tagy), které označují začátek a konec elementu, tj. nějaké části textu (písmene, slova, nebo jiného úseku textu). Značky mají své názvy a k odlišení od běžného textu jsou v lomených závorkách, např. počáteční značka pro element text (tj. pro celý jeden text) se zapisuje jako <text>
a koncová značka jako </text>
. Je-li element prázdný, může se např. místo <text></text>
zapsat <text/>
. Některé značky mohou obsahovat atributy s jejich hodnotami, např. element tok (slovo nebo interpunkční znaménko) může mít atributy pro identifikátor daného tokenu v textu a různé jeho interpretace: <tok id="w-6" ort="kočkovité"kočkovíté</tok>
.
Soubor XML lze editovat před tokenizací (This XML has not been tokenized yet, and only the text is shown below. To edit, click here.) nebo po tokenizaci. Po tokenizaci si lze navíc nechat zobrazit celý text nebo jen nejbližší okolí konkrétního slova (Edit the information about each word of this file by clicking on the word in the text below, or click here to edit the raw XML.)
3. Přepisy textu
3.1. Anonymizace
Z přepisu by neměla být zřejmá identita autora, jeho příbuzných, spolužáků, adresa, datum narození, případně ani jméno instituce s autorem nějak spojené. Proto by v přepisu měla být skutečná vlastní jména a další osobní údaje, která mohou autora identifikovat, nahrazena zástupnými jmény. Zástupná jména jsou v přepisu uvedena šedě. Pokud v přepisu narazíme na neanonymizované vlastní jméno (osoby, místa, instituce), datum narození apod., nahradíme ho podle pokynů na str. 10 a 11 dokumentu Manuál pro přepis psaných materiálů. To je třeba udělat přímo v XML – viz Opravy textů ve formátu XML. Datum sepsání textu necháváme neanonymizované. Nevíte-li si rady, odložte zatím takový text na později nebo si řekněte o pomoc v tomto fóru.
3.2. Opravy přepisu
Někdy zjistíte, že přepis neodpovídá skenu. V takovém případě je žádoucí přepis opravit. Přísně však odlišujeme opravu přepisu (@pform) a anotaci chybných tvarů (@form). Zde řešíme jen opravy přepisu.
V přepisu nejsou vyznačeny všechny charakteristiky rukopisu, např. konce řádků. Při kontrole přepisu a emendaci se nevěnujeme řádkování textu ani my, s výjimkou případů, kdy je koncem řádku jedno slovo v přepisu rozděleno do dvou. Pokud je za první částí slova na konci řádku spojovník, jde o chybu přepisu a takové slovo by mělo být správně přepsáno jako jeden token. Pokud spojovník chybí, považujeme to za pravopisnou chybu a řešíme jako součást emendace (viz Opravy hranic slov). V obou případech vložíme na místo, kde bylo slovo rozděleno koncem řádku, značku <lb/>.
Přepis se nejsnadněji opravuje před tokenizací. Viz Opravy textu ve formátu XML. Stačí se přitom držet zavedených transkripčních značek.
Dále popisujeme opravy přepisu po tokenizaci.
3.2.1. Přeškrtnutý text
- V přepisu by slovo přeškrtnuté v rukopisu měl být přeškrtnuté taky. Např. takto:
<del rend="strikethrough">přeškrtnuto</del>
- Ze stránky Edit Token klikneme na „edit context XML“, ale musíme zachovat značky <tok…> </tok>, např.:
<del rend="strikethrough"><tok id="w-1">přeškrtnuto</tok></del>
- Pokud je něco nečitelné, patří tam v přepisu značka <gap/>. Máme i značky pro přeškrtnuté nečitelné:
<del rend="strikethrough"><gap/></del>
- Máte-li takových oprav hodně, můžete využít klávesové zkratky - viz pasáž o programu AHK v návodu pro přepis (jen pro systém MS Windows).
- Přeškrtnutý text (
<del rend="strikethrough">…</del>
) by neměl být ve @form. - Škrtnutím opravené písmeno ve slově se zapisuje jako součást tokenu pro celé slovo:
<tok>šl<del rend="strikethrough">y</del><add>i</add></tok>.
3.2.2. Slova chybně přepsaná bez oddělovacích mezer
Text chybně přepsaný bez mezer opravíme tak, že vložíme mezery a doplníme značky pro tokeny. Nedoplňujeme atributy „id=“, TEITOK si tokeny očísluje sám.
<tok>Procházkabylomu</tok> => <tok>Procházka</tok> <tok>bylo</tok> <tok>mu</tok>.
3.2.3. Mezery chybně rozdělující slovo
- U slova chybně rozděleného mezerami klikneme na token za mezerou a pak dole na „merge left to …“. Uložíme. Máme ze dvou tokenů jeden. V @pform pak vymažeme mezeru mezi oběma slovy a znovu uložíme. Totéž můžeme udělat i přímo ve formátu XML.
- Pokud jsou mezi rozdělenými slovy nějaké transkripční značky, tak je jednoduše do jednoho tokenu spojit nelze. Musíme to udělat v souboru XML. V následujícím příkladu spojujeme jedno hubky, které jsou oddělené značkou <unclear>. Mezera za „jedno“ v opravené verzi je důležitá. Uložte. V Edit token doplňte @form, tedy „jedno hubky“ (při tomhle způsobu opravy tokenů se nevytvoří sama) a v @ort ta dvě slova spojte: „jednohubky“.
<tok>jedno</tok> <unclear><tok>hubky</tok></unclear> => <tok>jedno <unclear>hubky</unclear></tok>
3.2.4. Rozluštěná slova
- Pokud rozluštíte slovo nebo několik slov, která jsou přepsána jako <gap/>, nahraďte značku rozpoznaným slovem (slovy), označeným(i) jako „tok“.
- Jde to částečně i přes „Edit Token“, ale je to komplikovanější: Klikněte na slovo těsně před nebo za […] (<gap/>), na stránce Edit Token klikněte na „edit token after (resp. before) separate“ a na nové stránce vložte rozpoznané slovo do rámečku pro přepis místo prázdného elementu <ee/>. Uložte, ale na přidané slovo znovu klikněte a na stejné stránce Edit Token klikněte tentokrát na „edit kontext XML“. Najděte značku <gap/> a smažte ji. Uložte.
4. Anotace
4.1. Zásady anotace
V této části se věnujeme opravám textu po opravách žáka (podle @form) a po tokenizaci. Opravy přepisu (@pform) jsou popsány jinde.
Při anotaci se snažíme minimalizovat zásahy. Cílem je opravit text tak, aby byl pokud možno srozumitelný, gramaticky správný a podle spisovné normy. Neusilujeme o stylistickou vybroušenost ani o typografickou preciznost. Např. přímou řeč stačí oddělit čárkou, nemusíme doplňovat dvojtečku a uvozovky. Podobně i věty řazené za sebou bez interpunkce a počátečních velkých písmen od sebe oddělujeme čárkou nebo středníkem místo tečky a velkého písmene, pokud to nebrání porozumění.
4.2. Postup
Po kontrole anonymizace a přepisu je třeba text rozdělit na slova. Klikneme na „Tokenize the text“ dole pod textem.
V tokenizovaném textu klikneme na chybné slovo. Otevře se stránka „Edit Token“. Zajímat nás budou tyto položky:
pform | Transcription (Inner XML) | přepis včetně transkripčních značek |
form | Written form | přepis bez transkripčních značek |
dform | Rectified non-standard form | oprava nespisovného tvaru |
ort | Orthographically corrected form | pravopisná a morfematická oprava |
gram | Morphosyntactically corrected form | morfosyntaktická oprava |
lex | Lexically corrected form | lexikální oprava |
subs | Subsequent correction | následná oprava (jen CzeSL) |
Každá položka je v souboru XML zapsána jako atribut elementu tok, pojmenovaný zkratkou v prvním sloupci. V dalším textu budeme na tyto položky odkazovat jako na atributy XML. Např. @ort odkazuje na atribut a položku „ort“.
Při opravě vidíme nejčastěji vyplněnou jen položku @pform. Pokud je tvar opatřen nějakými transkripčními značkami, je automaticky vyplněna také položka @form. Většinou je prázdná a nevyplňujeme ji. Nevyplňujeme ani položky doplňované automaticky v dalším zpracování: opos, olemma, gpos, lpos a llemma.
Opravu zapisujeme nejčastěji na rovině pravopisných a morfématických oprav, tedy do položky @ort, někdy do @gram nebo @lex. Někdy je ale třeba tvar opravovat postupně na více rovinách. Opravy daného slova musíme nakonec uložit.
Nevyplněné položky se při dalším zpracování doplní údaji z výše uvedených rovin. Pokud chcete na nějaké rovině uvést, že zde token neexistuje, zapište dva spojovníky (--). Takovým způsobem lze např. v @ort vymazat interpunkci navíc.
Pokud je slovo nesrozumitelné, nedává smysl ani v širším kontextu a žádný tvar, kterým by se dalo nahradit, vás nenapadá, uveďte do položky @ort tři otazníky (???). Pokud je nesrozumitelná celá věta, i když třeba obsahuje tvary, které jsou samy o sobě korektní nebo nějak interpretovatelné, označte třemi otazníky celou větu (viz níže Opravy na úrovni věty / Poznámky ke větám).
4.3. Na jaké rovině tvar opravit?
- @dform: chyby v pravopisu nespisovných tvarů, např. dobrey ⇒ dobrej
- @ort – chyby:
- v diakritice1) a i/y (úklízely ⇒ uklízeli); CzeSL: jde-li o chybu v afixu, chybný tvar je nesprávný jen v kontextu a sám o sobě je správně utvořený, patří chyba do @gram
- ve velikosti písmen2)
- v hranicích slov (na jednou ⇒ Najednou)
- v interpunkci (tečky, čárky, dvojtečky, středníky, uvozovky, včetně teček za řadovou číslovkou), ú/ů (ůkol)
- v užití nespisovných a nářečních tvarů (velké [města], dobrej, hodný [holky]); CzeSL: pokud lze tvar sám o sobě interpretovat jako spisovný, patří chyba do @gram, např. lidi ⇒ lidé
- tvary, které jsou chybně utvořené, i když přísně vzato pravopisnou chybu nevykazují, např. babičkem ⇒ babičkou, pracovám ⇒ pracuju, kůněm ⇒ koněm
- záměna za tvar, který je nesprávný jen v kontextu, ale sám o sobě je správně utvořený a vysloví se jinak než jeho oprava, patří do @gram; CzeSL: podmínky jiné výslovnosti odpadá, do @gram patří i chyba ve tvaru, který je nesprávný jen v kontextu, ale sám o sobě je správně utvořený
- @gram:
- chyby ve shodě, rekci a v dalších morfosyntaktických jevech, pokud jsou slyšet, nejde o chyby v diakritice ani nespisovné nebo nářeční tvary; CzeSL: chyby ve shodě, rekci a v dalších morfosyntaktických jevech nemusí být slyšet, může jít o diakritiku i nespisovné nebo nářeční tvary
- nejčastěji jde o chybu v morfologické kategorii pádu, čísla, rodu, osoby, ale i stupně (adjektiv a adverbií)
- chybně (ne)vokalizované předložky
- chybějící nebo přebývající pomocná slova: pomocná a modální slovesa, předložky, spojky a krátké zvratné tvary se a si
- chybějící a přebývající předložky, spojky a zvratné částice doplňujeme nebo mažeme jako samostatné tokeny
- kategorie pomocných sloves se týká pomocných sloves v minulém a budoucím čase, kondicionálu i trpném rodu, a také spony
- když pomocné sloveso přebývá (děti jsou přišly), spojíme ho s významovým slovesem na @gram do elementu mtok
- když pomocné sloveso chybí, rozdělíme významové sloveso na dtoks
- příklady typu budu napsat ⇒ napíšu řešíme spojením do mtok na @gram, záměnu vidu zde ignorujeme
- záměnu předložky nebo spojky za jinou předložku nebo spojku řešíme na @lex, stejně tak i záměnu modálních sloves
- záměna zvratných tvarů, záměna pomocného slovesa být nebo spony
- Problémem zůstává, jak řešit chybějící nebo přebývající pomocné sloveso v nekontaktní slovosledné pozici vůči slovesu vyznamovému – nabízí se stejné řešení jako u ostatních pomocných slov, je jen otázka, zda to nerozšířit i na kontaktní pozici.
- @lex:
- chyby, u kterých je třeba provést záměnu lexémů (autem mechanikem ⇒ automechanikem, pán ⇒ pan [Novák], kdy ⇒ kdyby ), nejde-li o pomocné slovo
- opravy slovesného vidu
- @subs:
- opravy forem, které byly v lokálním kontextu původního textu správně a je nutné je opravit jen s ohledem na chybu v jiném slově
- obvykle jde o odlišnou syntaktickou vazbu v opraveném textu, např. do školy ⇒ ve škole, podpořit někoho ⇒ pomáhat někomu
- záměnu předložky a slovesa řešíme v těchto případech jako chybu @lex, záměnu gramatických kategorií slovesa jako chybu @gram
4.4. Postupné opravy
Opravy řešíme postupně po rovinách v pořadí od rektifikace nespisovných tvarů po lexikum. Např. [znám] novák opravíme v @ort na [znám] Novák a pak v @gram na [znám] Nováka. Podobně v příkladu jeli jsme na prahu ⇒ jeli jsme do Prahy opravíme prahu ⇒ Prahu jako @ort, na ⇒ do jako @lex, a Prahu ⇒ Prahy jako @subs.
Někdy ale postupné opravy anotaci zbytečně komplikují. Třeba v příkladu k naším životem ⇒ pro náš život by se jako @gram mohlo opravit životem ⇒ životu a naším ⇒ našemu, pak na @lex k ⇒ pro a na @subs životu ⇒ život a našemu ⇒ náš. V tomto případě můžeme meziopravu na @gram vypustit a opravovat jen na @lex a @subs.
4.5. Nespisovná čeština a nářečí
V @ort uvádíme opravy podle spisovné normy (viz např. http://prirucka.ujc.cas.cz), např.
ovocný stromy ⇒ ovocné stromy
hodnej kluk ⇒ hodný kluk
Zároveň ale můžeme opravit chybně zapsaný nespisovný tvar při zachování jeho nespisovné podoby. Stejně jako u příkladů ovocný stromy a hodnej kluk opravíme podle spisovné normy na @ort, ale na rovině @dform pro rektifikaci nestandardních tvarů můžeme zapsat nespisovný tvar tak, aby bylo možné ho snáze identifikovat a vyhledávat. V následujících příkladech ukazujeme tento postup:
@form | @dform | @ort |
---|---|---|
všecky ty hloupí blbosti | všecky ty hloupý blbosti | všecky ty hloupé blbosti |
mám ráda tancování, … a takoví | mám ráda tancování, … a takový | mám ráda tancování, … a takové3) |
Rektifikace nespisovných tvarů uvádíme jen v případech, kdy je k tomu dobrý důvod a kandidát na rektifikovanou podobu je nasnadě. Mělo by být zřejmé, že jde opravdu o obecnou češtinu nebo nářečí, nikoli o překlep, dyslexii apod., např. kopim si pití, přičemž nejde o autora z Hané. Zachováváme přitom morfologické kategorie tvaru.
Nespisovné tvary, rektifikované nebo nerektifikované, pak opravujeme na spisovné na rovině @ort, i když z jiného pohledu by mohlo jít i o chybu morfosyntaktickou (hloupý blbosti) nebo lexikální (voknem, bejt). Nespisovné lexémy nahrazujeme (pravděpodobnými) spisovnými ekvivalenty v @lex jen v případech, kdy by mohly být nesrozumitelné.
Další příklady s rektifikací:
@form | @dform | @ort |
---|---|---|
did on za to nemůže | dyť on za to nemůže | vždyť on za to nemůže |
noví holky | nový holky | nové holky |
a já jsu synek z Polanky | a já su synek z Polanky | a já jsem synek z Polanky |
doprovidijou | doprovodijou | doprovodí |
Příklady bez rektifikace:
@form | @ort |
---|---|
ty si | ty jsi |
s nim | s ním |
mladýma klukama | mladými kluky |
nový holky | nové holky |
kopit | koupit |
mam práci | mám práci |
tátovo brejle | tátovy brejle |
mámy šaty | máminy šaty |
najist ji dam | najíst jí dám |
Opravy hranic slov
Chybně spojená a rozdělená slova považujeme za pravopisnou chybu.
Chybně spojená slova
Chybně spojená slova (např. řeklsi) stačí přepsat odděleně s mezerou v @ort, uložit a kliknout pod textem dole na „Split tokens based on ort“. Původní token (stále označený jako element „tok“) se tak rozdělí na více podtokenů, označených jako „dtok“. U podtokenů je oddělená část původně spojeného tvaru uvedena jako @form daného podtokenu („D-Token“ na stránce „Edit Token“) a lze ji dále opravovat.
Funkci lze na daný text použít jen jednou. Opravíme tedy nejprve všechna spojené slova v textu v @ort a až nakonec klikneme na funkci „Split tokens based on ort“.
Chybně oddělená slova
Chybně oddělená slova (např. s kamarádit) opravíme na @ort tak, že klikneme na slovo za mezerou a zvolíme „create mtok left: 1“ (pokud spojujeme s jedním tokenem vlevo) nebo „create mtok left: 2“ (pokud spojujeme se dvěma tokeny vlevo). V @ort pod „Multi-token value (newmtok)“ pak vyplníme @ort.
Funkce „create mtok …“ nefunguje, pokud jsou ve spojovaném úseku nějaké transkripční značky. Např. na ne večeřím, které je v XML uvedeno jako:
<tok>na</tok> <del rend="strikethrough"><tok form="--">ne</tok></del> <tok>večeřím</tok>
je třeba opravit přímo v XML na
<mtok ort="navečeřím"><tok>na</tok> <del rend="strikethrough"><tok form="--">ne</tok></del> <tok>večeřím</tok></mtok>
Hodnotu @ort lze doplnit i na stránce „Edit token“ v sekci „Multi-token value“.
Výsledek opravy se po kliknutí na „Pravopisné opravy“ v „Text View“ zobrazí bez mezery mezi na a večeřím.
Se spojeným slovem (elementem mtok) však nelze zacházet stejně jako s jinými nespojenými slovy. Např. za spojené slovo se funkcí „Insert token“ nedá přidat chybějící interpunkce. Lze to obejít tak, že si zobrazení přepneme na Přepis a interpunkci přidáme za poslední spojené slovo. Interpunkce se ale přidá dovnitř elementu mtok a v zobrazení Pravopisné opravy není vidět. Když tímhle postupem spojíme např. slovo1 se slovem2 a za slovo2 přidáme čárku, vypadá XML (bez atributů id) takto:
<mtok form="slovo1 slovo2" ort="slovo1slovo2"><tok>slovo1</tok> <tok>slovo2</tok><tok ort=","><ee/></tok></mtok> <tok>slovo3</tok>
Můžeme to opravit v XML tak, že tu přidanou čárku přesuneme na konec elementu mtok:
<mtok form="slovo1 slovo2" ort="slovo1slovo2"><tok>slovo1</tok> <tok>slovo2</tok></mtok><tok ort=","><ee/></tok> <tok>slovo3</tok>
Editování XML si ušetříme, když postup obrátíme: nejdřív za slovo2 přidáme čárku a teprve potom spojíme slovo2 se slovem1. Dostaneme tak správnou verzi rovnou.
Nahrazení jednoho slova více slovy a naopak
Jde-li o lexikální opravu, použijeme funkci „split in dtoks“ na @lex. Chybějící předložku ale doplňujeme na @gram jako další token pomocí funkce „insert tok before: separate“. Chceme-li naopak předložku smazat, uvedeme na příslušné rovině (@gram) dva spojovníky (--).
Vymazání a vložení tokenu
U interpunkce jde vždy o chybu pravopisnou (@ort), jindy může jít i o chybu morfosyntaktickou nebo lexikální. Pokud je konstrukce bez doplnění negramatická (část slovesného tvaru, předmět u slovesa dát, mít apod.), byla by to spíše morfosyntaktická chyba, pokud je bez doplnění nesrozumitelná, byla by to chyba spíše lexikální. Za lexikální chybu považujeme také bezdůvodné opakování slova. Každopádně to má smysl jen tehdy, pokud máme relativní jistotu, co doplnit.
Mazat a přidávat můžeme i podtokeny (elementy dtok). Např. v dočkat se naněj rozdělíme nejdřív naněj na dva elementy dtok (vz Chybně oddělená slova). V dtok předložky pak zapíšeme do @gram dva spojovníky (--, viz Vymazání tokenu) a zájmeno něj analogicky opravíme na ho. Ale ho musíme zapsat i do @gram elementu tok, jinak bude v zobrazení morfosyntaktických chyb na Text view stále jen na něj.
Vymazání tokenu
Na příslušné rovině zapište dva spojovníky (--).
Vložení tokenu
Slova do textu doplňujeme jen v nutných případech, kdy by jinak text byl negramatický nebo zcela nesrozumitelný a kdy víme s dostatečnou jistotou, co doplnit. Je-li třeba doplnit více než jedno slovo, snažíme se minimalizovat jejich počet.
- Klikněte na slovo, za které chcete něco vložit. Otevře se stránka „Edit token“.
- Pod všemi položkami najdete různé možnosti, jak tokeny vkládat, spojovat a rozdělovat. Má-li být token vložen bez oddělovací mezery (např. u interpunkce), vyberte si možnost „insert tok after: attached“ (klikněte na červené slovo „attached“). Objeví se nová stránka „Edit token“, tentokrát je ale v @pform značka <ee/> („empty element“).
- Na příslušnou rovinu (např. @ort) vložíme nový token (např. chybějící čárku). Stiskneme Enter nebo klikneme na Save.
- Opravu uvidíme, když klikneme v Možnostech zobrazení na Pravopisné opravy. V souboru XML je vložená tečka zaznamenána např. takto: <tok id="w-60" ort=","<ee/></tok>. Značka <ee/> označuje, že na daném místě nebylo původně nic.
- Můžete tak vkládat libovolné slovo, ale třeba i uvozovky, i těsně před slovo („before“ místo „after“), nebo pomlčky, oddělené mezerou („separate“ místo „attached“).
- Tokeny nelze vkládat před nebo za spojená slova (elementy mtok). Je tedy lepší nejdříve token vložit před nebo za chybně oddělené slovo a pak teprve chybně oddělená slova spojit. Více viz Chybně oddělená slova.
Opravy posloupnosti slov
Opravy slovosledu
- klikněte na Create Stand-off error annotation v Text view dole pod textem
- vyznačte myší souvislý úsek textu, v němž chcete upravit slovosled
- úsek by měl být co nejkratší, neměl by tedy obsahovat na začátku a na konci slova, která zůstanou po opravě na stejné pozici
- v rámečku Edit Annotation vpravo vyberte v položce Code kód WO
- v položce Correction uveďte daný úsek textu se všemi provedenými opravami a s opraveným slovosledem
- opravu uložte
Takto můžeme opravovat i celou větu. Oproti přepsání věty do Target hypothesis to má tu výhodu, že uvádíme explicitně kód chyby.
Stand-off anotace ale má tu nevýhodu, že oprava je vidět jen na stránce Stand-off annotation, po kliknutí na Create Stand-off error annotation. I proto je důležité opravovat tímto způsobem jen slovosled, vycházet tedy ze oprav provedených u jednotlivých tokenů.
Opravy konstrukcí
Stand-off anotaci můžeme využít i pro opravy konstrukcí, které nelze dost dobře zvládnout opravami jednotlivých slov. Např. bratr a sestra jsou moc různí tak můžeme opravit na bratr a sestra se hodně liší tak, že kódem CONSTR vyznačíme a opravíme úsek jsou moc různí.
Označení problémových úseků
Stand-off anotaci můžeme využít i pro označení nesrozumitelných a tedy neopravitelných úseků. Zvolíme kód PROBLEM. Považujte prosím tuhle možnost za nouzové řešení, kdy opravdu nelze anotovat jinak.
Opravy na úrovni věty
Opravy slovosledu
Slovosled opravujeme jen v nutných případech, kdy je původní text negramatický nebo těžko srozumitelný. Při opravách slovosledu přepisujeme celou větu v jejím konečném znění, po všech opravách.
V „Text View“ klikněte dole pod textem na „Zobrazit po větách“, pak vlevo na číslo konkrétní věty. Objeví se rámeček „Target Hypothesis“, kam lze zapsat celou větu ve správném slovosledu. Uveďte její konečnou verzi, tj. po všech opravách i jednotlivých slov.
Pokud odstavec textu obsahuje více vět, je třeba text na věty nejprve rozdělit, viz Rozdělení odstavců na věty.
Poznámky ke větám
Ke každé větě lze připojit i poznámku. V „Text View“ klikněte dole pod textem na „Zobrazit po větách“, pak vlevo na číslo konkrétní věty. Do rámečku „Note“ můžete zapsat ???, pokud je věta zcela nesrozumitelná a lze opravit třeba jen pravopisnou podobu slov. Můžete vložit i jinou relevantní poznámku.
Pokud odstavec textu obsahuje více vět, je třeba text na věty nejprve rozdělit, viz Rozdělení odstavců na věty.
Rozdělení odstavců na věty
Hranice vět v běžných případech nemusíte vůbec řešit. Pokud byste ale u některé věty v textu chtěli opravit slovosled, nebo k ní uvést poznámku, je třeba hranice věty v textu (XML) vyznačit. Začátek a konec věty se označuje značkami <s> a </s>. Po tokenizaci se hranice vět shodují s hranicemi odstavců. Za každým <p> tedy následuje <s> a každému </p> předchází </s>. Obsahuje-li odstavec více vět, je třeba provést níže uvedený postup.
V „Text View“ dole pod „Admin Options“ a „Custom Actions“ najdete volbu „Split (further) into sentences“. Po kliknutí by se text v odstavcích měl rozdělit na věty. Automaticky se ale vyřeší jen jednoduché případy. Pokud v textu chybí větná interpunkce a Vy usoudíte, že tam hranice věty má být, je třeba vložit do XML „pomocnou“ značku /s/ a „Split (further) into sentences“ spustit znovu. Pokud se odstavec naopak rozdělí na věty v místech, kam žádná hranice vět nepatří (např. po řadových číslovkách nebo iniciálech), je možné značky </s> a <s> na příslušném místě v XML smazat. Nerozdělujte pak ale text na věty automaticky znovu, značky by se tam znovu vrátily.