====== Příprava etalonu pro morfologickou a syntaktickou analýzu ======
===== Texty v etalonu =====
Celkem pozic: ''1062255'', vět: ''73343'' \\
Bez ''&doc;'': ''1061492'', vět: ''72533''
===== Texty k anotaci =====
* NOV: 875.581 pozic
* PUB: 814.418 pozic
* SCI: 1.066.604 pozic
==== Umístění textů ====
Hlavní adresář: ''/home/skoumal/PROJEKTY/GACR1012'' \\
Podadresáře:
* ''data'' - texty v různém stadiu anotace od anotátorů
* ''compare'' - hotové texty ke kontrole nebo k porovnání s PDT; má podadresáře:
* ''merge'':
* ''done'' - zkontrolované
* ''archiv''
* ''semiarchiv''
* ''semidone''
* ''done-osoby'' - obsah ''done'' s přidaným 4. sloupcem (tagy po klasické desambiguaci) a přidanou osobou \\ tagy, kam se nedoplnila osoba, najdeme takto:grep " V[pqs].....-" *
([[wiki:user:skoumal:chyby_osoby|omrknout]], co udělala desambiguace blbě)
==== Inventura duben 2016 ====
* [[wiki:user:skoumal:etalon:inventura_duben_2016|Inventura duben 2016]]
==== Inventura - duben 2017 ====
* Podrobná [[wiki:user:skoumal:infra:inventura-201704|inventura]] ke konci dubna 2017
* Odevzdáno: **''768.265''**
* PUB: **''292.968''**
* SCI: **''212.252''**
* NOV: **''263.045''**
* K dispozici: **''2.094.338''**
* PUB: **''571.865''**
* SCI: **''903.858''**
* NOV: **''618.615''**
==== Další postup ====
* [[wiki:user:skoumal:etalon:dalsi_postup|Další postup anotace]]
====== Etalon z PDT ======
* [[wiki:user:skoumal:etalon:pdt|Příprava Etalonu z PDT]]
====== Porovnání anotátorů, taggerů ======
* [[wiki:user:skoumal:etalon:porovnani|Porovnání]]
====== Kontrola ======
==== Chyby a hromadné opravy====
* ''Chvíli chvíle NNFS3''
* co + ''P4...'' (nikoliv ''---'')
* Přidání osoby a vidu: viz [[wiki:user:skoumal:infra:osoby|Přidání osoby do SYNv4]]
* Opravy lemmat:
for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tmůj(\tPS....P)/\tnáš$1/' $ff; done
for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\ttvůj(\tPS....P)/\tváš$1/' $ff; done
for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tjeho(\tPS....P)/\tjejich$1/' $ff; done
for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tjeho(\tPS...F)/\tjejí$1/' $ff; done
for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tjá(\tPP.P)/\tmy$1/' $ff; done
for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tty(\tPP.P)/\tvy$1/' $ff; done
for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\ton(\tP[P5].P)/\toni$1/' $ff; done
* Zkontrolovat slovesa bez vidu:cut -f3 *.1-3 | sort -u | grep "^V.*-$"
* Zkontrolovat příčestí bez osoby:cut -f3 *.1-3 | sort -u | grep "V[psq].....-"
==== Problematické tagy (a lemmata) ====
* ''Db--------[AN]----'' už ve slovníku u slov //zřídka//, //právem//, //vždy(cky)//
* //vždyťs// jako ''J^'', //cos// jako ''J,''
* negace u ''NN'': ''zkušenost NNA'' x ''nezkušenost NNN'', ''nemoc NNA'' ([[wiki:user:skoumal:seznam_negovanych_substantiv|Seznam]])
==== Úkoly pro supervizora ====
* **jeho**: PP (osobní) vs PS (přivlastňovací)[word="[jJ][eE][hH][oO]" & lemma="on"]
[lemma="jeho"]
* **jehož**: PJ (vztažné) vs P1 (vztažné přivlastňovací)[word="[jJ][eE][hH][oO][žŽ]" & tag="PJ.*"]
[word="[jJ][eE][hH][oO][žŽ]" & tag="P1.*"]
* **se**: P7 vs RV[lemma="se" & tag="P7..4.*"]
[lemma="s" & tag="RV..7.*"]
* **co**: PQ vs P4[lemma="co" & tag="PQ..[14].*"]
[lemma="co" & tag="P4.*"]
* **žít**: žít vs žnout
* negramatické kolokace
* "předložky" počátkem, začátkem, koncem ''RR--2----------'' (a příslušná násl. slova)
* "dustbin", výběr převážně z TT-------------
J,-------------
J^-------------
Db-------------
Dg-------1A----
II-------------
podle Mileniny tabulky v ''/home/milena/SYNTAX/ETALON/casticoadverbia.xls''
* **až**:
* ''TT'' -- až večer, někdy lze nahradit slovem 'teprve'; až do konce
* ''J,'' -- až přijdeš,...; Tak dlouho..., až se ucho utrhne.
* ''J^'' -- dva až pět
* **ať**:
* ''TT'' -- Ať už tě tu nevidím! Tak ať!
* ''J,'' -- Ať dělám, co dělám,... Řekl, ať...
* ''J^'' -- ať - nebo, ať - či, ať - ať
* **ale**:
* ''J^''
* ''TT'' -- Ale! To je ale zima.
* **aby**
* ''J,''
* ''TT'' -- Jen aby! Aby tak...
* Další várka:
* **blízko**
* ''AC'' (krátký tvar adjektiva)
* ''Dg''
* ''NN'' -- Spíš jen v nepřímých pádech
* ''RR--2''
* ''RR--3''
* **celkem**
* ''Db'' -- Celkem to dělá 52 Kč.
* ''TT'' -- Je mi to celkem jedno.
* ''NN''
* **copak**
* ''PQ--1''
* ''PQ--4''
* ''TT''
* **dále**
* ''Dg-------2A'' -- lemma ''daleko''; Posunout se dále, jít dále
* ''Db'' -- Za další, dále uděláme toto, Dále!
* **div**
* ''NN''
* ''Vi''
* ''Db'' -- Div se z toho nezbláznil.
* **jak**
* ''NN'' -- Zvíře.
* ''Db'' -- Jakým způsobem. Jak řekl, tak udělal. Jak jsi moudrý! Místo jako.
* ''^J'' -- Párová spojka: jak Petr, tak Pavel. Věty v poměru stupňovacím: Neřekl to mně, jak potom tobě.
* ''J,'' -- Vyprávěl, jak šel do hospody. Jak(mile) napsal dopis, odnesl ho na poštu. Jestliže, protože, ačkoliv
====== Úpravy starších textů a slití s nově otagovanými ======
* Oba fajly zkopírovat do ''korpus-cmp''
* Provést tento příkaz:cd korpus-cmp
paste karaskovX-DB <(simplify-tags-csts.pl < karaskovX-JK) | perl -pe 's/"utkl-.."/"utkl"/g' \
| merge-csts | remove-MM.pl > ../../merge-import/neprirazeno/karaskovX-DB-JK
====== Anotátoři 2016 ======
[[wiki:user:skoumal:etalon:anotatori_2016|Anotátoři 2016]]
====== Závěrečné práce na Etalonu ======
* Kontrola korektních tagů: ''check-tag-vert-tab.pl''
* Vše umístěno v adresáři ''/home/skoumal/PROJEKTY/INFRASTRUKTURA/Etalon/''
* ''Verze/0.9/1''...
* ''XML/0.9/1''...
* ''bez-XML''
* ''compare/''
* ''tagger''
* ''token''
===== Obsah adresářů =====
==== Verze ====
* Zde jsou umístěny ručně otagované soubory -- vertikály se třemi sloupci -- bez přípon
* Verze 1 je verze po ručním tagování a opravách, **před** porovnáním s XML a automaticky otagovanými texty
* Další verze se tvoří po ručních opravách
==== XML ====
* Zde jsou umístěny další adresáře:
* ''orig'' -- původní XML soubory
* ''csts-...'' -- mezikroky vzniklé při desambiguaci
* ''in-utf8'' -- vstup pro desambiguaci
* ''hand-corr'' -- kopie ručně tagovaných souborů. Zde se **opravují ručně tagované soubory**.
* ''vert-check'' -- adresář pro sjednocení ''XML'' a ''.vrt'' souborů. Zde se **opravuje XML**.
* ''vert-rules'' -- adresář s výsledky našeho tagování
* ''vert-tagger'' -- adresář s výsledky featuramy
==== bez-XML ====
* Zde jsou soubory, ke kterým není XML, postupně se vytvoří.
==== compare ====
* ''token'' -- vertikály jenom z forem; zde se kontroluje tokenizace.
* Problémy:
* Věta uprostřed odstavce "obalená" uvozovkami se nesegmentuje.
* Iniciály, za nimiž následuje interpunkce (čárka, vykřičník apod.) mají poslední tečku odlepenou.
* ''tagger'' -- vertikály o třech sloupcích; porovnávají se soubory označkované
* ručně (bez přípony)
* automaticky s pravidly (.vrt)
* automaticky featuramou (.tag)
===== Úkoly pro Horkého =====
* Připravit texty z FicTree:
* zkontrolovat proti XML a opravit (XML nebo vrt)
* naporcovat na kousky
* Ostatní texty:
* zkontrolovat proti XML a opravit (XML nebo vrt)
* Bez XML:
* dodat XML
====== Evaluace ======
* [[wiki:user:skoumal:etalon:evaluace|Evaluace tagování]]
* [[wiki:user:skoumal:etalon:eval-korp|Příprava korpusu pro porovnání nové morfolgie vůči Etalonu]]
====== Trénování MorphoDiTy ======
* [[wiki:user:skoumal:etalon:morphodita|Příprava Etalonu pro trénování]]
* [[wiki:user:skoumal:etalon:compare|Příprava Etalonu pro porovnání S MDiTou]]
====== Známé chyby ======
* Vid: homonymní slovesa (proudit, sladit, zahýbat...)