Wiki spuštěna 24. 7. 2025

Příprava etalonu pro morfologickou a syntaktickou analýzu

Texty v etalonu

Celkem pozic: 1062255, vět: 73343
Bez &doc;: 1061492, vět: 72533

Texty k anotaci

  • NOV: 875.581 pozic
  • PUB: 814.418 pozic
  • SCI: 1.066.604 pozic

Umístění textů

Hlavní adresář: /home/skoumal/PROJEKTY/GACR1012
Podadresáře:

  • data - texty v různém stadiu anotace od anotátorů
  • compare - hotové texty ke kontrole nebo k porovnání s PDT; má podadresáře:
    • merge:
      • done - zkontrolované
      • archiv
      • semiarchiv
      • semidone
      • done-osoby - obsah done s přidaným 4. sloupcem (tagy po klasické desambiguaci) a přidanou osobou
        tagy, kam se nedoplnila osoba, najdeme takto:
        grep " V[pqs].....-" *

        (omrknout, co udělala desambiguace blbě)

Inventura duben 2016

Inventura - duben 2017

  • Podrobná inventura ke konci dubna 2017
  • Odevzdáno: 768.265
    • PUB: 292.968
    • SCI: 212.252
    • NOV: 263.045
  • K dispozici: 2.094.338
    • PUB: 571.865
    • SCI: 903.858
    • NOV: 618.615

Další postup

Etalon z PDT

Porovnání anotátorů, taggerů

Kontrola

Chyby a hromadné opravy

  • Chvíli chvíle NNFS3
  • co + P4… (nikoliv )
  • Přidání osoby a vidu: viz Přidání osoby do SYNv4
  • Opravy lemmat:
    for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tmůj(\tPS....P)/\tnáš$1/' $ff; done
    for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\ttvůj(\tPS....P)/\tváš$1/' $ff; done
    for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tjeho(\tPS....P)/\tjejich$1/' $ff; done
    for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tjeho(\tPS...F)/\tjejí$1/' $ff; done
    for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tjá(\tPP.P)/\tmy$1/' $ff; done
    for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tty(\tPP.P)/\tvy$1/' $ff; done
    for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\ton(\tP[P5].P)/\toni$1/' $ff; done
  • Zkontrolovat slovesa bez vidu:
    cut -f3 *.1-3 | sort -u | grep "^V.*-$"
  • Zkontrolovat příčestí bez osoby:
    cut -f3 *.1-3 | sort -u | grep "V[psq].....-"

Problematické tagy (a lemmata)

  • Db——–[AN]—- už ve slovníku u slov zřídka, právem, vždy(cky)
  • vždyťs jako J^, cos jako J,
  • negace u NN: zkušenost NNA x nezkušenost NNN, nemoc NNA (Seznam)

Úkoly pro supervizora

  • jeho: PP (osobní) vs PS (přivlastňovací)
    [word="[jJ][eE][hH][oO]" & lemma="on"]
    [lemma="jeho"]
  • jehož: PJ (vztažné) vs P1 (vztažné přivlastňovací)
    [word="[jJ][eE][hH][oO][žŽ]" & tag="PJ.*"]
    [word="[jJ][eE][hH][oO][žŽ]" & tag="P1.*"]
  • se: P7 vs RV
    [lemma="se" & tag="P7..4.*"]
    [lemma="s" & tag="RV..7.*"]
  • co: PQ vs P4
    [lemma="co" & tag="PQ..[14].*"]
    [lemma="co" & tag="P4.*"]
  • žít: žít vs žnout
  • negramatické kolokace
  • “předložky” počátkem, začátkem, koncem RR--2---------- (a příslušná násl. slova)
  • “dustbin”, výběr převážně z
    TT-------------
    J,-------------
    J^-------------
    Db-------------
    Dg-------1A----
    II-------------

    podle Mileniny tabulky v /home/milena/SYNTAX/ETALON/casticoadverbia.xls

    • :
      • TT – až večer, někdy lze nahradit slovem 'teprve'; až do konce
      • J, – až přijdeš,…; Tak dlouho…, až se ucho utrhne.
      • J^ – dva až pět
    • :
      • TT – Ať už tě tu nevidím! Tak ať!
      • J, – Ať dělám, co dělám,… Řekl, ať…
      • J^ – ať - nebo, ať - či, ať - ať
    • ale:
      • J^
      • TT – Ale! To je ale zima.
    • aby
      • J,
      • TT – Jen aby! Aby tak…
    • Další várka:
    • blízko
      • AC (krátký tvar adjektiva)
      • Dg
      • NN – Spíš jen v nepřímých pádech
      • RR--2
      • RR--3
    • celkem
      • Db – Celkem to dělá 52 Kč.
      • TT – Je mi to celkem jedno.
      • NN
    • copak
      • PQ--1
      • PQ--4
      • TT
    • dále
      • Dg-------2A – lemma daleko; Posunout se dále, jít dále
      • Db – Za další, dále uděláme toto, Dále!
    • div
      • NN
      • Vi
      • Db – Div se z toho nezbláznil.
    • jak
      • NN – Zvíře.
      • Db – Jakým způsobem. Jak řekl, tak udělal. Jak jsi moudrý! Místo jako.
      • ^J – Párová spojka: jak Petr, tak Pavel. Věty v poměru stupňovacím: Neřekl to mně, jak potom tobě.
      • J, – Vyprávěl, jak šel do hospody. Jak(mile) napsal dopis, odnesl ho na poštu. Jestliže, protože, ačkoliv

Úpravy starších textů a slití s nově otagovanými

  • Oba fajly zkopírovat do korpus-cmp
  • Provést tento příkaz:
    cd korpus-cmp
    paste karaskovX-DB <(simplify-tags-csts.pl < karaskovX-JK) | perl -pe 's/"utkl-.."/"utkl"/g' \
    | merge-csts | remove-MM.pl > ../../merge-import/neprirazeno/karaskovX-DB-JK

Anotátoři 2016

Závěrečné práce na Etalonu

  • Kontrola korektních tagů: check-tag-vert-tab.pl
  • Vše umístěno v adresáři /home/skoumal/PROJEKTY/INFRASTRUKTURA/Etalon/
    • Verze/0.9/1
    • XML/0.9/1
    • bez-XML
    • compare/
      • tagger
      • token

Obsah adresářů

Verze

  • Zde jsou umístěny ručně otagované soubory – vertikály se třemi sloupci – bez přípon
  • Verze 1 je verze po ručním tagování a opravách, před porovnáním s XML a automaticky otagovanými texty
  • Další verze se tvoří po ručních opravách

XML

  • Zde jsou umístěny další adresáře:
    • orig – původní XML soubory
    • csts-… – mezikroky vzniklé při desambiguaci
    • in-utf8 – vstup pro desambiguaci
    • hand-corr – kopie ručně tagovaných souborů. Zde se opravují ručně tagované soubory.
    • vert-check – adresář pro sjednocení XML a .vrt souborů. Zde se opravuje XML.
    • vert-rules – adresář s výsledky našeho tagování
    • vert-tagger – adresář s výsledky featuramy

bez-XML

  • Zde jsou soubory, ke kterým není XML, postupně se vytvoří.

compare

  • token – vertikály jenom z forem; zde se kontroluje tokenizace.
    • Problémy:
      • Věta uprostřed odstavce “obalená” uvozovkami se nesegmentuje.
      • Iniciály, za nimiž následuje interpunkce (čárka, vykřičník apod.) mají poslední tečku odlepenou.
  • tagger – vertikály o třech sloupcích; porovnávají se soubory označkované
    • ručně (bez přípony)
    • automaticky s pravidly (.vrt)
    • automaticky featuramou (.tag)

Úkoly pro Horkého

  • Připravit texty z FicTree:
    • zkontrolovat proti XML a opravit (XML nebo vrt)
    • naporcovat na kousky
  • Ostatní texty:
    • zkontrolovat proti XML a opravit (XML nebo vrt)
  • Bez XML:
    • dodat XML

Evaluace

Trénování MorphoDiTy

Známé chyby

  • Vid: homonymní slovesa (proudit, sladit, zahýbat…)

QR Code
QR Code wiki:user:skoumal:etalon (generated for current page)