Table of Contents
Příprava etalonu pro morfologickou a syntaktickou analýzu
Texty v etalonu
Celkem pozic: 1062255, vět: 73343
Bez &doc;: 1061492, vět: 72533
Texty k anotaci
- NOV: 875.581 pozic
- PUB: 814.418 pozic
- SCI: 1.066.604 pozic
Umístění textů
Hlavní adresář: /home/skoumal/PROJEKTY/GACR1012
Podadresáře:
data- texty v různém stadiu anotace od anotátorůcompare- hotové texty ke kontrole nebo k porovnání s PDT; má podadresáře:merge:done- zkontrolovanéarchivsemiarchivsemidonedone-osoby- obsahdones přidaným 4. sloupcem (tagy po klasické desambiguaci) a přidanou osobou
tagy, kam se nedoplnila osoba, najdeme takto:grep " V[pqs].....-" *
(omrknout, co udělala desambiguace blbě)
Inventura duben 2016
Inventura - duben 2017
- Podrobná inventura ke konci dubna 2017
- Odevzdáno:
768.265- PUB:
292.968 - SCI:
212.252 - NOV:
263.045
- K dispozici:
2.094.338- PUB:
571.865 - SCI:
903.858 - NOV:
618.615
Další postup
Etalon z PDT
Porovnání anotátorů, taggerů
Kontrola
Chyby a hromadné opravy
Chvíli chvíle NNFS3- co +
P4…(nikoliv—) - Přidání osoby a vidu: viz Přidání osoby do SYNv4
- Opravy lemmat:
for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tmůj(\tPS....P)/\tnáš$1/' $ff; done for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\ttvůj(\tPS....P)/\tváš$1/' $ff; done for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tjeho(\tPS....P)/\tjejich$1/' $ff; done for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tjeho(\tPS...F)/\tjejí$1/' $ff; done for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tjá(\tPP.P)/\tmy$1/' $ff; done for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tty(\tPP.P)/\tvy$1/' $ff; done for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\ton(\tP[P5].P)/\toni$1/' $ff; done
- Zkontrolovat slovesa bez vidu:
cut -f3 *.1-3 | sort -u | grep "^V.*-$"
- Zkontrolovat příčestí bez osoby:
cut -f3 *.1-3 | sort -u | grep "V[psq].....-"
Problematické tagy (a lemmata)
Db——–[AN]—-už ve slovníku u slov zřídka, právem, vždy(cky)- vždyťs jako
J^, cos jakoJ,
Úkoly pro supervizora
- jeho: PP (osobní) vs PS (přivlastňovací)
[word="[jJ][eE][hH][oO]" & lemma="on"] [lemma="jeho"]
- jehož: PJ (vztažné) vs P1 (vztažné přivlastňovací)
[word="[jJ][eE][hH][oO][žŽ]" & tag="PJ.*"] [word="[jJ][eE][hH][oO][žŽ]" & tag="P1.*"]
- se: P7 vs RV
[lemma="se" & tag="P7..4.*"] [lemma="s" & tag="RV..7.*"]
- co: PQ vs P4
[lemma="co" & tag="PQ..[14].*"] [lemma="co" & tag="P4.*"]
- žít: žít vs žnout
- negramatické kolokace
- “předložky” počátkem, začátkem, koncem
RR--2----------(a příslušná násl. slova) - “dustbin”, výběr převážně z
TT------------- J,------------- J^------------- Db------------- Dg-------1A---- II-------------
podle Mileniny tabulky v
/home/milena/SYNTAX/ETALON/casticoadverbia.xls- až:
TT– až večer, někdy lze nahradit slovem 'teprve'; až do konceJ,– až přijdeš,…; Tak dlouho…, až se ucho utrhne.J^– dva až pět
- ať:
TT– Ať už tě tu nevidím! Tak ať!J,– Ať dělám, co dělám,… Řekl, ať…J^– ať - nebo, ať - či, ať - ať
- ale:
J^TT– Ale! To je ale zima.
- aby
J,TT– Jen aby! Aby tak…
- Další várka:
- blízko
AC(krátký tvar adjektiva)DgNN– Spíš jen v nepřímých pádechRR--2RR--3
- celkem
Db– Celkem to dělá 52 Kč.TT– Je mi to celkem jedno.NN
- copak
PQ--1PQ--4TT
- dále
Dg-------2A– lemmadaleko; Posunout se dále, jít dáleDb– Za další, dále uděláme toto, Dále!
- div
NNViDb– Div se z toho nezbláznil.
- jak
NN– Zvíře.Db– Jakým způsobem. Jak řekl, tak udělal. Jak jsi moudrý! Místo jako.^J– Párová spojka: jak Petr, tak Pavel. Věty v poměru stupňovacím: Neřekl to mně, jak potom tobě.J,– Vyprávěl, jak šel do hospody. Jak(mile) napsal dopis, odnesl ho na poštu. Jestliže, protože, ačkoliv
Úpravy starších textů a slití s nově otagovanými
- Oba fajly zkopírovat do
korpus-cmp - Provést tento příkaz:
cd korpus-cmp paste karaskovX-DB <(simplify-tags-csts.pl < karaskovX-JK) | perl -pe 's/"utkl-.."/"utkl"/g' \ | merge-csts | remove-MM.pl > ../../merge-import/neprirazeno/karaskovX-DB-JK
Anotátoři 2016
Závěrečné práce na Etalonu
- Kontrola korektních tagů:
check-tag-vert-tab.pl - Vše umístěno v adresáři
/home/skoumal/PROJEKTY/INFRASTRUKTURA/Etalon/Verze/0.9/1…XML/0.9/1…bez-XMLcompare/taggertoken
Obsah adresářů
Verze
- Zde jsou umístěny ručně otagované soubory – vertikály se třemi sloupci – bez přípon
- Verze 1 je verze po ručním tagování a opravách, před porovnáním s XML a automaticky otagovanými texty
- Další verze se tvoří po ručních opravách
XML
- Zde jsou umístěny další adresáře:
orig– původní XML souborycsts-…– mezikroky vzniklé při desambiguaciin-utf8– vstup pro desambiguacihand-corr– kopie ručně tagovaných souborů. Zde se opravují ručně tagované soubory.vert-check– adresář pro sjednoceníXMLa.vrtsouborů. Zde se opravuje XML.vert-rules– adresář s výsledky našeho tagovánívert-tagger– adresář s výsledky featuramy
bez-XML
- Zde jsou soubory, ke kterým není XML, postupně se vytvoří.
compare
token– vertikály jenom z forem; zde se kontroluje tokenizace.- Problémy:
- Věta uprostřed odstavce “obalená” uvozovkami se nesegmentuje.
- Iniciály, za nimiž následuje interpunkce (čárka, vykřičník apod.) mají poslední tečku odlepenou.
tagger– vertikály o třech sloupcích; porovnávají se soubory označkované- ručně (bez přípony)
- automaticky s pravidly (.vrt)
- automaticky featuramou (.tag)
Úkoly pro Horkého
- Připravit texty z FicTree:
- zkontrolovat proti XML a opravit (XML nebo vrt)
- naporcovat na kousky
- Ostatní texty:
- zkontrolovat proti XML a opravit (XML nebo vrt)
- Bez XML:
- dodat XML
Evaluace
Trénování MorphoDiTy
Známé chyby
- Vid: homonymní slovesa (proudit, sladit, zahýbat…)