Záznam ze schůzky projektu CZESL 16. 10. 2009 v ÚTKL FFUK

Účastníci:

Jména účastníků jsou níže uváděna - promiňte, že poněkud hrubě - bez titulů a bez křestních jmen, jen demokraticky označením “kol.”.

a) Kol. Šebesta předložil svůj pohled na hrubost/jemnost značkování a předložil argumenty pro hrubé značkování. Bylo by vhodné, kdyby svůj text nadepsaný “Konstanty” poskytl ostatním i elektronicky s tím, že předtím v textu na samém začátku laskavě opraví “3 miliony” na “2 miliony”.

b) ÚTKL navrhuje ústy kol. Rosena rozčlenění anotace do 4 anotačních rovin:

0. rovina: Bude obsahovat surovou vstupní větu a bude pro každý text jedna. Tato rovina se nebude slovnědruhově a morfologicky značkovat.

Následující roviny 1-3 budou součástí jedné z více možných hypotéz. Z praktických důvodů může být počet hypotéz omezen, např. na 3, o tom bychom se měli ještě dohodnout. Pokud není třeba nic opravovat, anotátor může danou rovinu ignorovat - informace na přísl. rovině může se doplnit automaticky.

1. rovina: anotace pravopisu, hláskosloví, tvarosloví - opravované slovo přitom musí existovat; výstupem je anotovaná věta. Na této rovině se při anotaci nebude měnit slovní druh, např. “jinaků” se ponechá, jak je, čili neznačkované, nebo se případně může označkovat neautomaticky; k jeho nahrazení vhodným synonymem dojde až na 3. rovině.

2. rovina: anotace morfosyntaxe, shody, valence: lze doplňovat/ubírat/opravovat jen synsémantika; nelze měnit slovosled; výstupem je anotovaná věta. Na této rovině bude tedy docházet ke “gramatikalizaci” vstupní věty až na úpravu slovosledu, jež je přesunuta na 3. úroveň.

3. rovina: anotace změn slovosledu, slovní zásoby, sémantiky, stylu, úzu; výstupem je anotovaná věta. Výstupem této roviny nebude nutně stylisticky dokonalá česká věta, ale jen gramaticky správná česká věta. Na této rovině se budou nečeská či nevhodná slova nahrazovat jejich tušenými synonymy (“jinaků” → “odlišností”; “obecný úřad” → “obecní úřad”).

1. - 3. rovina se bude slovnědruhově a morfologicky značkovat.

Mezi tyto roviny budou vloženy chybové meziroviny s uzly pro zaznamenání typu chyby a toho, jakých uzlů sousedních rovin se chyba týká. Informace o chybách tak budou jasně odděleny od jednotlivých rovin obsahujících věty. Každý uzel meziroviny bude svým popisem vyjadřovat příslušnou chybu a bude pojítkem mezi uzly sousedních rovin chybou zasaženými. Mimoto se počítá ještě s jednosměrnými vztahy/spoji typu “odkaz/pointer/reference” pro zaznamenání syntaktických/syntagmatických vztahů mezi slovy, např. u věty “dívky zapěli Píseň práce” povede odkaz od uzlu, který odpovídá slovu “zapěli” a který leží na mezirovině mezi rovinou 1 a 2, k uzlu odpovídajícímu slovu “dívky”, který leží na 2. rovině (nebo na 1. rovině či mezirovině - to se ještě upřesní). Podobně u “nerozumí ho” - odkaz od uzlu, který odpovídá slovu “ho” a který leží na mezirovině mezi rovinou 1 a 2, k uzlu odpovídajícímu slovu “nerozumí”. Identifikace chyby bude vždy u chybného tvaru s odkazem na “zdroj” shody nebo řídící slovo - v případě rekce. Syntaktické/Syntagmatické vztahy se budou takto anotovat jen u chyb shody, rekce, případně zájmenného odkazování.

Vstupní věta se anotuje na rovinách v uvedeném pořadí, některou z rovin bude možné při zpracování přeskočit.

c) Kol. Rosen se zmínil o nedostatečnosti programu EXMARaLDA a nabídl software MED, vyvinutý v Ústavu formální a aplikované lingvistiky MFFUK. Zde jsou příslušné odkazy:

http://ufal.ms.mff.cuni.cz/tools.html/med.html

https://wiki.ufal.ms.mff.cuni.cz/pajas:med

projekt: https://wiki.ufal.ms.mff.cuni.cz/pdtsc:start

MED je dosud určen k vytváření syntakticky anotovaných korpusů mluveného jazyka, ale dal by se přizpůsobit účelům našeho projektu, zejména poslouží po vložení chybových mezirovin specifikaci korespondence mezi skupinami slov na sousedních rovinách popisu a uchování identity téhož slova na různých rovinách při změně slovosledu týkající se příslušného slova. Kol. Rosen uvedl o MEDu základní informace a předvedl, jak vypadá dílčí zpracování mluvené věty. ÚTKL v současnosti shání programátora, který by MED upravil pro účely CZESLu.

d) Bylo by dobré, kdyby byl upravený MED co nejdříve k dispozici, nejpozději však do ledna/února 2010, aby si jej kmenoví spolupracovníci projektu mohli vyzkoušet a aby pak - dokonale obeznámeni s jeho funkčními možnostmi - mohli zaučit anotátory. K dispozici by měl být i manuál, jak s upraveným MEDem pracovat. Zatím je k dispozici manuál k současnému MEDu, tedy pro značkování syntakticky anotovaného korpusu mluveného jazyka. Na tento manuál posílá kol. Rosen ostatním webový odkaz:

https://wiki.ufal.ms.mff.cuni.cz/_media/pdtsc:tr-2008-38.pdf

e) Probírala se otázka, zda anotátor potřebuje morfologické a slovnědruhové značkování. Ano, je vhodné, aby je měl k dispozici. Opakujeme: rovina 0 se však takto značkovat nebude, značkovat se budou až roviny vyšší, tj. 1. rovina - 3. rovina.

f) S bodem e) úzce souvisí otázka, kam ukládat (anotovaná) data. Bude vhodné, aby anotátor i další mohli pracovat v režimu on-line na webu, což znamená, že data by měla být uložena centrálně na centrálním serveru, nejlépe v ÚTKL. Anotátoři by anotovali pomocí webového browseru a k datům by měli mít mimo anotátory přístup všichni relevantní pracovníci.

h) Vstupní data: Kol. Štindlová informovala o tom, že textový vstup je tvořen 3 součástmi, kterými jsou:

h1) identifikace soubor - průvodka

h2) správní informace o textu (hlavička souboru) v podobě dotazníku

h3) textový soubor samý

Specifickým dotazníkem bude dotazník pro texty Romů. Mohou být buď různé typy databázových/metadatových záznamů nebo sjednocení různých typů záznamů.

Z diskuse vyplynulo, že vstupní data se budou uchovávat na 2 místech a v různých podobách:

Ad databáze: jde patrně pouze o metadata. V databázi by se měly objevit údaje o anotaci: kdo a kdy anotoval. Co tvoří metadata, musí stanovit liberečtí spolupracovníci. V tomto případě je nutno, aby data z databáze byla provázána s vlastními texty, optimální řešení bychom měli nechat na odborníkovi. Jedna věc je, kde budou umístěna rozpracovaná data (on-line anotovaná) data, a druhá věc, kde bude uložen výsledek: korpus. Možná nejlíp obojí na jednom místě.

i) ÚTKL poskytne libereckým kolegům požadavky na data, která se budou exportovat do formátu XML, s nímž se bude pracovat na serveru ÚTKL. Nelze však vyloučit naopak i import z XML do databáze - např. informace o tom, kdo a kdy anotoval. Jeden požadavek na data se již domluvil: data by se měla pro účely zpracování VŽDY jednotně kódovat v kódování UTF-8 a ve formátu txt.

Pro představu o možných chybách ve vstupních textech a pro specifikaci vhodné nomenklatury chyb však budou do ÚTKL občas zasílána textová data jako dosud ve formátu Word.

j) Kol. Štindlová se s kol. Petkevičem dohodli na přípravě modifikované chybové klasifikace ve světle dosavadních diskusí. Ohledně podrobnosti značkování, která se obráží v počtu kategorií a podkategorií lingvistických oblastí a typů chyb, kol. Jelínek navrhuje pro každou z rovin 1., 2. a 3. hierarchii maximálně tohoto rozsahu:

hloubka hierarchie: nejvýše 2, čili nejvzdálenějším vztahem bude vztah otec-vnuk šířka hierarchie: matka má nejvýše 10 přímých potomků.

k) Kol. Skoumalová navrhuje pro účely zpětné vazby studentů-autorů textů poskytnout těmto studentům výsledný korpus, aby se sami mohli podívat na své chyby a příslušně zpytovali své cizinecké svědomí.

Na samém konci se ještě rozvinula debata o jemnosti značkování, přece jen je návrh kol. Šebesty na pouze hrubé značkování v rozporu s návrhem jemnějšího značkování kols. Škodové a Štindlové. Možným řešením tu je toto: jemně označkovat nevelký korpusek, zbytek označkovat hrubě. Vztah hrubý - jemný lze vyjádřit takto: vše, co je obsaženo v hrubém značkování, musí být obsaženo ve značkování jemném.

Je také možné anotovat různé oblasti různě detailně, např. pravopis málo, morfologii podrobněji.

Zapsal ještě zatepla 16. 10. 2009 Vladimír Petkevič po zevrubné konzultaci s Alexandrem Rosenem