====== Příprava etalonu pro morfologickou a syntaktickou analýzu ====== ===== Texty v etalonu ===== Celkem pozic: ''1062255'', vět: ''73343'' \\ Bez ''&doc;'': ''1061492'', vět: ''72533'' ===== Texty k anotaci ===== * NOV: 875.581 pozic * PUB: 814.418 pozic * SCI: 1.066.604 pozic ==== Umístění textů ==== Hlavní adresář: ''/home/skoumal/PROJEKTY/GACR1012'' \\ Podadresáře: * ''data'' - texty v různém stadiu anotace od anotátorů * ''compare'' - hotové texty ke kontrole nebo k porovnání s PDT; má podadresáře: * ''merge'': * ''done'' - zkontrolované * ''archiv'' * ''semiarchiv'' * ''semidone'' * ''done-osoby'' - obsah ''done'' s přidaným 4. sloupcem (tagy po klasické desambiguaci) a přidanou osobou \\ tagy, kam se nedoplnila osoba, najdeme takto:grep " V[pqs].....-" *([[wiki:user:skoumal:chyby_osoby|omrknout]], co udělala desambiguace blbě) ==== Inventura duben 2016 ==== * [[wiki:user:skoumal:etalon:inventura_duben_2016|Inventura duben 2016]] ==== Inventura - duben 2017 ==== * Podrobná [[wiki:user:skoumal:infra:inventura-201704|inventura]] ke konci dubna 2017 * Odevzdáno: **''768.265''** * PUB: **''292.968''** * SCI: **''212.252''** * NOV: **''263.045''** * K dispozici: **''2.094.338''** * PUB: **''571.865''** * SCI: **''903.858''** * NOV: **''618.615''** ==== Další postup ==== * [[wiki:user:skoumal:etalon:dalsi_postup|Další postup anotace]] ====== Etalon z PDT ====== * [[wiki:user:skoumal:etalon:pdt|Příprava Etalonu z PDT]] ====== Porovnání anotátorů, taggerů ====== * [[wiki:user:skoumal:etalon:porovnani|Porovnání]] ====== Kontrola ====== ==== Chyby a hromadné opravy==== * ''Chvíli chvíle NNFS3'' * co + ''P4...'' (nikoliv ''---'') * Přidání osoby a vidu: viz [[wiki:user:skoumal:infra:osoby|Přidání osoby do SYNv4]] * Opravy lemmat: for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tmůj(\tPS....P)/\tnáš$1/' $ff; done for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\ttvůj(\tPS....P)/\tváš$1/' $ff; done for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tjeho(\tPS....P)/\tjejich$1/' $ff; done for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tjeho(\tPS...F)/\tjejí$1/' $ff; done for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tjá(\tPP.P)/\tmy$1/' $ff; done for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tty(\tPP.P)/\tvy$1/' $ff; done for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\ton(\tP[P5].P)/\toni$1/' $ff; done * Zkontrolovat slovesa bez vidu:cut -f3 *.1-3 | sort -u | grep "^V.*-$" * Zkontrolovat příčestí bez osoby:cut -f3 *.1-3 | sort -u | grep "V[psq].....-" ==== Problematické tagy (a lemmata) ==== * ''Db--------[AN]----'' už ve slovníku u slov //zřídka//, //právem//, //vždy(cky)// * //vždyťs// jako ''J^'', //cos// jako ''J,'' * negace u ''NN'': ''zkušenost NNA'' x ''nezkušenost NNN'', ''nemoc NNA'' ([[wiki:user:skoumal:seznam_negovanych_substantiv|Seznam]]) ==== Úkoly pro supervizora ==== * **jeho**: PP (osobní) vs PS (přivlastňovací)[word="[jJ][eE][hH][oO]" & lemma="on"] [lemma="jeho"] * **jehož**: PJ (vztažné) vs P1 (vztažné přivlastňovací)[word="[jJ][eE][hH][oO][žŽ]" & tag="PJ.*"] [word="[jJ][eE][hH][oO][žŽ]" & tag="P1.*"] * **se**: P7 vs RV[lemma="se" & tag="P7..4.*"] [lemma="s" & tag="RV..7.*"] * **co**: PQ vs P4[lemma="co" & tag="PQ..[14].*"] [lemma="co" & tag="P4.*"] * **žít**: žít vs žnout * negramatické kolokace * "předložky" počátkem, začátkem, koncem ''RR--2----------'' (a příslušná násl. slova) * "dustbin", výběr převážně z TT------------- J,------------- J^------------- Db------------- Dg-------1A---- II-------------podle Mileniny tabulky v ''/home/milena/SYNTAX/ETALON/casticoadverbia.xls'' * **až**: * ''TT'' -- až večer, někdy lze nahradit slovem 'teprve'; až do konce * ''J,'' -- až přijdeš,...; Tak dlouho..., až se ucho utrhne. * ''J^'' -- dva až pět * **ať**: * ''TT'' -- Ať už tě tu nevidím! Tak ať! * ''J,'' -- Ať dělám, co dělám,... Řekl, ať... * ''J^'' -- ať - nebo, ať - či, ať - ať * **ale**: * ''J^'' * ''TT'' -- Ale! To je ale zima. * **aby** * ''J,'' * ''TT'' -- Jen aby! Aby tak... * Další várka: * **blízko** * ''AC'' (krátký tvar adjektiva) * ''Dg'' * ''NN'' -- Spíš jen v nepřímých pádech * ''RR--2'' * ''RR--3'' * **celkem** * ''Db'' -- Celkem to dělá 52 Kč. * ''TT'' -- Je mi to celkem jedno. * ''NN'' * **copak** * ''PQ--1'' * ''PQ--4'' * ''TT'' * **dále** * ''Dg-------2A'' -- lemma ''daleko''; Posunout se dále, jít dále * ''Db'' -- Za další, dále uděláme toto, Dále! * **div** * ''NN'' * ''Vi'' * ''Db'' -- Div se z toho nezbláznil. * **jak** * ''NN'' -- Zvíře. * ''Db'' -- Jakým způsobem. Jak řekl, tak udělal. Jak jsi moudrý! Místo jako. * ''^J'' -- Párová spojka: jak Petr, tak Pavel. Věty v poměru stupňovacím: Neřekl to mně, jak potom tobě. * ''J,'' -- Vyprávěl, jak šel do hospody. Jak(mile) napsal dopis, odnesl ho na poštu. Jestliže, protože, ačkoliv ====== Úpravy starších textů a slití s nově otagovanými ====== * Oba fajly zkopírovat do ''korpus-cmp'' * Provést tento příkaz:cd korpus-cmp paste karaskovX-DB <(simplify-tags-csts.pl < karaskovX-JK) | perl -pe 's/"utkl-.."/"utkl"/g' \ | merge-csts | remove-MM.pl > ../../merge-import/neprirazeno/karaskovX-DB-JK ====== Anotátoři 2016 ====== [[wiki:user:skoumal:etalon:anotatori_2016|Anotátoři 2016]] ====== Závěrečné práce na Etalonu ====== * Kontrola korektních tagů: ''check-tag-vert-tab.pl'' * Vše umístěno v adresáři ''/home/skoumal/PROJEKTY/INFRASTRUKTURA/Etalon/'' * ''Verze/0.9/1''... * ''XML/0.9/1''... * ''bez-XML'' * ''compare/'' * ''tagger'' * ''token'' ===== Obsah adresářů ===== ==== Verze ==== * Zde jsou umístěny ručně otagované soubory -- vertikály se třemi sloupci -- bez přípon * Verze 1 je verze po ručním tagování a opravách, **před** porovnáním s XML a automaticky otagovanými texty * Další verze se tvoří po ručních opravách ==== XML ==== * Zde jsou umístěny další adresáře: * ''orig'' -- původní XML soubory * ''csts-...'' -- mezikroky vzniklé při desambiguaci * ''in-utf8'' -- vstup pro desambiguaci * ''hand-corr'' -- kopie ručně tagovaných souborů. Zde se **opravují ručně tagované soubory**. * ''vert-check'' -- adresář pro sjednocení ''XML'' a ''.vrt'' souborů. Zde se **opravuje XML**. * ''vert-rules'' -- adresář s výsledky našeho tagování * ''vert-tagger'' -- adresář s výsledky featuramy ==== bez-XML ==== * Zde jsou soubory, ke kterým není XML, postupně se vytvoří. ==== compare ==== * ''token'' -- vertikály jenom z forem; zde se kontroluje tokenizace. * Problémy: * Věta uprostřed odstavce "obalená" uvozovkami se nesegmentuje. * Iniciály, za nimiž následuje interpunkce (čárka, vykřičník apod.) mají poslední tečku odlepenou. * ''tagger'' -- vertikály o třech sloupcích; porovnávají se soubory označkované * ručně (bez přípony) * automaticky s pravidly (.vrt) * automaticky featuramou (.tag) ===== Úkoly pro Horkého ===== * Připravit texty z FicTree: * zkontrolovat proti XML a opravit (XML nebo vrt) * naporcovat na kousky * Ostatní texty: * zkontrolovat proti XML a opravit (XML nebo vrt) * Bez XML: * dodat XML ====== Evaluace ====== * [[wiki:user:skoumal:etalon:evaluace|Evaluace tagování]] * [[wiki:user:skoumal:etalon:eval-korp|Příprava korpusu pro porovnání nové morfolgie vůči Etalonu]] ====== Trénování MorphoDiTy ====== * [[wiki:user:skoumal:etalon:morphodita|Příprava Etalonu pro trénování]] * [[wiki:user:skoumal:etalon:compare|Příprava Etalonu pro porovnání S MDiTou]] ====== Známé chyby ====== * Vid: homonymní slovesa (proudit, sladit, zahýbat...)