====== Příprava etalonu pro morfologickou a syntaktickou analýzu ======

===== Texty v etalonu =====

Celkem pozic: ''1062255'', vět: ''73343'' \\
Bez ''&doc;'': ''1061492'', vět: ''72533''

===== Texty k anotaci =====

  * NOV: 875.581 pozic
  * PUB: 814.418 pozic
  * SCI: 1.066.604 pozic
==== Umístění textů ====

Hlavní adresář: ''/home/skoumal/PROJEKTY/GACR1012'' \\
Podadresáře:
  * ''data'' - texty v různém stadiu anotace od anotátorů
  * ''compare'' - hotové texty ke kontrole nebo k porovnání s PDT; má podadresáře:
    * ''merge'':
      * ''done'' - zkontrolované
      * ''archiv''
      * ''semiarchiv''
      * ''semidone''
      * ''done-osoby'' - obsah ''done'' s přidaným 4. sloupcem (tagy po klasické desambiguaci) a přidanou osobou \\ tagy, kam se nedoplnila osoba, najdeme takto:<code>grep " V[pqs].....-" *</code>([[wiki:user:skoumal:chyby_osoby|omrknout]], co udělala desambiguace blbě)

==== Inventura duben 2016 ====

  * [[wiki:user:skoumal:etalon:inventura_duben_2016|Inventura duben 2016]]

==== Inventura - duben 2017 ====

  * Podrobná [[wiki:user:skoumal:infra:inventura-201704|inventura]] ke konci dubna 2017
  * Odevzdáno: **''768.265''**
    * PUB: **''292.968''**
    * SCI: **''212.252''**
    * NOV: **''263.045''**
  * K dispozici: **''2.094.338''**
    * PUB: **''571.865''**
    * SCI: **''903.858''**
    * NOV: **''618.615''**

==== Další postup ====

  * [[wiki:user:skoumal:etalon:dalsi_postup|Další postup anotace]]

====== Etalon z PDT ======

  * [[wiki:user:skoumal:etalon:pdt|Příprava Etalonu z PDT]]

====== Porovnání anotátorů, taggerů ======

  * [[wiki:user:skoumal:etalon:porovnani|Porovnání]]

====== Kontrola ======

==== Chyby a hromadné opravy====

  * ''Chvíli chvíle NNFS3''
  * co + ''P4...'' (nikoliv ''---'')
  * Přidání osoby a vidu: viz [[wiki:user:skoumal:infra:osoby|Přidání osoby do SYNv4]]
  * Opravy lemmat:<code>
for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tmůj(\tPS....P)/\tnáš$1/' $ff; done
for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\ttvůj(\tPS....P)/\tváš$1/' $ff; done
for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tjeho(\tPS....P)/\tjejich$1/' $ff; done
for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tjeho(\tPS...F)/\tjejí$1/' $ff; done
for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tjá(\tPP.P)/\tmy$1/' $ff; done
for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tty(\tPP.P)/\tvy$1/' $ff; done
for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\ton(\tP[P5].P)/\toni$1/' $ff; done
</code>
  * Zkontrolovat slovesa bez vidu:<code>cut -f3 *.1-3 | sort -u | grep "^V.*-$"</code>
  * Zkontrolovat příčestí bez osoby:<code>cut -f3 *.1-3 | sort -u | grep "V[psq].....-"</code>

==== Problematické tagy (a lemmata) ====

  * ''Db--------[AN]----'' už ve slovníku u slov //zřídka//, //právem//, //vždy(cky)//
  * //vždyťs// jako ''J^'', //cos// jako ''J,''
  * negace u ''NN'': ''zkušenost NNA'' x ''nezkušenost NNN'', ''nemoc NNA'' ([[wiki:user:skoumal:seznam_negovanych_substantiv|Seznam]])

==== Úkoly pro supervizora ====

  * **jeho**: PP (osobní) vs PS (přivlastňovací)<code>[word="[jJ][eE][hH][oO]" & lemma="on"]
[lemma="jeho"]</code>
  * **jehož**: PJ (vztažné) vs P1 (vztažné přivlastňovací)<code>[word="[jJ][eE][hH][oO][žŽ]" & tag="PJ.*"]
[word="[jJ][eE][hH][oO][žŽ]" & tag="P1.*"]</code>
  * **se**: P7 vs RV<code>[lemma="se" & tag="P7..4.*"]
[lemma="s" & tag="RV..7.*"]</code>
  * **co**: PQ vs P4<code>[lemma="co" & tag="PQ..[14].*"]
[lemma="co" & tag="P4.*"]</code>
  * **žít**: žít vs žnout
  * negramatické kolokace
  * "předložky" počátkem, začátkem, koncem ''<nowiki>RR--2----------</nowiki>'' (a příslušná násl. slova)
  * "dustbin", výběr převážně z <code>TT-------------
J,-------------
J^-------------
Db-------------
Dg-------1A----
II-------------</code>podle Mileniny tabulky v ''/home/milena/SYNTAX/ETALON/casticoadverbia.xls''
    * **až**:
      * ''TT'' -- až večer, někdy lze nahradit slovem 'teprve'; až do konce
      * ''J,'' -- až přijdeš,...; Tak dlouho..., až se ucho utrhne.
      * ''J^'' -- dva až pět
    * **ať**:
      * ''TT'' -- Ať už tě tu nevidím! Tak ať!
      * ''J,'' -- Ať dělám, co dělám,... Řekl, ať...
      * ''J^'' -- ať - nebo, ať - či, ať - ať
    * **ale**:
      * ''J^'' 
      * ''TT'' -- Ale! To je ale zima.
    * **aby**
      * ''J,''
      * ''TT'' -- Jen aby! Aby tak...
    * Další várka:
    * **blízko**
      * ''AC'' (krátký tvar adjektiva)
      * ''Dg''
      * ''NN'' -- Spíš jen v nepřímých pádech
      * ''RR<nowiki>--</nowiki>2''
      * ''RR<nowiki>--</nowiki>3''
    * **celkem**
      * ''Db'' -- Celkem to dělá 52 Kč.
      * ''TT'' -- Je mi to celkem jedno.
      * ''NN''
    * **copak**
      * ''PQ<nowiki>--</nowiki>1''
      * ''PQ<nowiki>--</nowiki>4''
      * ''TT''
    * **dále**
      * ''Dg<nowiki>-------</nowiki>2A'' -- lemma ''daleko''; Posunout se dále, jít dále
      * ''Db'' -- Za další, dále uděláme toto, Dále!
    * **div**
      * ''NN''
      * ''Vi''
      * ''Db'' -- Div se z toho nezbláznil.
    * **jak**
      * ''NN'' -- Zvíře.
      * ''Db'' -- Jakým způsobem. Jak řekl, tak udělal. Jak jsi moudrý! Místo jako.
      * ''^J'' -- Párová spojka: jak Petr, tak Pavel. Věty v poměru stupňovacím: Neřekl to mně, jak potom tobě.
      * ''J,'' -- Vyprávěl, jak šel do hospody. Jak(mile) napsal dopis, odnesl ho na poštu. Jestliže, protože, ačkoliv

====== Úpravy starších textů a slití s nově otagovanými ======

  * Oba fajly zkopírovat do ''korpus-cmp''
  * Provést tento příkaz:<code>cd korpus-cmp
paste karaskovX-DB <(simplify-tags-csts.pl < karaskovX-JK) | perl -pe 's/"utkl-.."/"utkl"/g' \
| merge-csts | remove-MM.pl > ../../merge-import/neprirazeno/karaskovX-DB-JK</code>

====== Anotátoři 2016 ======

[[wiki:user:skoumal:etalon:anotatori_2016|Anotátoři 2016]]

====== Závěrečné práce na Etalonu ======

  * Kontrola korektních tagů: ''check-tag-vert-tab.pl''
  * Vše umístěno v adresáři ''/home/skoumal/PROJEKTY/INFRASTRUKTURA/Etalon/''
    * ''Verze/0.9/1''...
    * ''XML/0.9/1''...
    * ''bez-XML''
    * ''compare/''
      * ''tagger''
      * ''token''

===== Obsah adresářů =====

==== Verze ====

  * Zde jsou umístěny ručně otagované soubory -- vertikály se třemi sloupci -- bez přípon
  * Verze 1 je verze po ručním tagování a opravách, **před** porovnáním s XML a automaticky otagovanými texty
  * Další verze se tvoří po ručních opravách

==== XML ====

  * Zde jsou umístěny další adresáře:
    * ''orig'' -- původní XML soubory
    * ''csts-...'' -- mezikroky vzniklé při desambiguaci
    * ''in-utf8'' -- vstup pro desambiguaci
    * ''hand-corr'' -- kopie ručně tagovaných souborů. Zde se **opravují ručně tagované soubory**.
    * ''vert-check'' -- adresář pro sjednocení ''XML'' a ''.vrt'' souborů. Zde se **opravuje XML**.
    * ''vert-rules'' -- adresář s výsledky našeho tagování
    * ''vert-tagger'' -- adresář s výsledky featuramy

==== bez-XML ====

  * Zde jsou soubory, ke kterým není XML, postupně se vytvoří.

==== compare ====

  * ''token'' -- vertikály jenom z forem; zde se kontroluje tokenizace.
    * Problémy:
      * Věta uprostřed odstavce "obalená" uvozovkami se nesegmentuje.
      * Iniciály, za nimiž následuje interpunkce (čárka, vykřičník apod.) mají poslední tečku odlepenou.
  * ''tagger'' -- vertikály o třech sloupcích; porovnávají se soubory označkované
    * ručně (bez přípony)
    * automaticky s pravidly (.vrt)
    * automaticky featuramou (.tag)

===== Úkoly pro Horkého =====

  * Připravit texty z FicTree:
    * zkontrolovat proti XML a opravit (XML nebo vrt)
    * naporcovat na kousky
  * Ostatní texty:
    * zkontrolovat proti XML a opravit (XML nebo vrt)
  * Bez XML:
    * dodat XML
====== Evaluace ======

  * [[wiki:user:skoumal:etalon:evaluace|Evaluace tagování]]
  * [[wiki:user:skoumal:etalon:eval-korp|Příprava korpusu pro porovnání nové morfolgie vůči Etalonu]]

====== Trénování MorphoDiTy ======

  * [[wiki:user:skoumal:etalon:morphodita|Příprava Etalonu pro trénování]]
  * [[wiki:user:skoumal:etalon:compare|Příprava Etalonu pro porovnání S MDiTou]]

====== Známé chyby ======

  * Vid: homonymní slovesa (proudit, sladit, zahýbat...)