Table of Contents
Příprava etalonu pro morfologickou a syntaktickou analýzu
Texty v etalonu
Celkem pozic: 1062255
, vět: 73343
Bez &doc;
: 1061492
, vět: 72533
Texty k anotaci
- NOV: 875.581 pozic
- PUB: 814.418 pozic
- SCI: 1.066.604 pozic
Umístění textů
Hlavní adresář: /home/skoumal/PROJEKTY/GACR1012
Podadresáře:
data
- texty v různém stadiu anotace od anotátorůcompare
- hotové texty ke kontrole nebo k porovnání s PDT; má podadresáře:merge
:done
- zkontrolovanéarchiv
semiarchiv
semidone
done-osoby
- obsahdone
s přidaným 4. sloupcem (tagy po klasické desambiguaci) a přidanou osobou
tagy, kam se nedoplnila osoba, najdeme takto:grep " V[pqs].....-" *
(omrknout, co udělala desambiguace blbě)
Inventura duben 2016
Inventura - duben 2017
- Podrobná inventura ke konci dubna 2017
- Odevzdáno:
768.265
- PUB:
292.968
- SCI:
212.252
- NOV:
263.045
- K dispozici:
2.094.338
- PUB:
571.865
- SCI:
903.858
- NOV:
618.615
Další postup
Etalon z PDT
Porovnání anotátorů, taggerů
Kontrola
Chyby a hromadné opravy
Chvíli chvíle NNFS3
- co +
P4…
(nikoliv—
) - Přidání osoby a vidu: viz Přidání osoby do SYNv4
- Opravy lemmat:
for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tmůj(\tPS....P)/\tnáš$1/' $ff; done for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\ttvůj(\tPS....P)/\tváš$1/' $ff; done for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tjeho(\tPS....P)/\tjejich$1/' $ff; done for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tjeho(\tPS...F)/\tjejí$1/' $ff; done for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tjá(\tPP.P)/\tmy$1/' $ff; done for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tty(\tPP.P)/\tvy$1/' $ff; done for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\ton(\tP[P5].P)/\toni$1/' $ff; done
- Zkontrolovat slovesa bez vidu:
cut -f3 *.1-3 | sort -u | grep "^V.*-$"
- Zkontrolovat příčestí bez osoby:
cut -f3 *.1-3 | sort -u | grep "V[psq].....-"
Problematické tagy (a lemmata)
Db——–[AN]—-
už ve slovníku u slov zřídka, právem, vždy(cky)- vždyťs jako
J^
, cos jakoJ,
Úkoly pro supervizora
- jeho: PP (osobní) vs PS (přivlastňovací)
[word="[jJ][eE][hH][oO]" & lemma="on"] [lemma="jeho"]
- jehož: PJ (vztažné) vs P1 (vztažné přivlastňovací)
[word="[jJ][eE][hH][oO][žŽ]" & tag="PJ.*"] [word="[jJ][eE][hH][oO][žŽ]" & tag="P1.*"]
- se: P7 vs RV
[lemma="se" & tag="P7..4.*"] [lemma="s" & tag="RV..7.*"]
- co: PQ vs P4
[lemma="co" & tag="PQ..[14].*"] [lemma="co" & tag="P4.*"]
- žít: žít vs žnout
- negramatické kolokace
- “předložky” počátkem, začátkem, koncem
RR--2----------
(a příslušná násl. slova) - “dustbin”, výběr převážně z
TT------------- J,------------- J^------------- Db------------- Dg-------1A---- II-------------
podle Mileniny tabulky v
/home/milena/SYNTAX/ETALON/casticoadverbia.xls
- až:
TT
– až večer, někdy lze nahradit slovem 'teprve'; až do konceJ,
– až přijdeš,…; Tak dlouho…, až se ucho utrhne.J^
– dva až pět
- ať:
TT
– Ať už tě tu nevidím! Tak ať!J,
– Ať dělám, co dělám,… Řekl, ať…J^
– ať - nebo, ať - či, ať - ať
- ale:
J^
TT
– Ale! To je ale zima.
- aby
J,
TT
– Jen aby! Aby tak…
- Další várka:
- blízko
AC
(krátký tvar adjektiva)Dg
NN
– Spíš jen v nepřímých pádechRR--2
RR--3
- celkem
Db
– Celkem to dělá 52 Kč.TT
– Je mi to celkem jedno.NN
- copak
PQ--1
PQ--4
TT
- dále
Dg-------2A
– lemmadaleko
; Posunout se dále, jít dáleDb
– Za další, dále uděláme toto, Dále!
- div
NN
Vi
Db
– Div se z toho nezbláznil.
- jak
NN
– Zvíře.Db
– Jakým způsobem. Jak řekl, tak udělal. Jak jsi moudrý! Místo jako.^J
– Párová spojka: jak Petr, tak Pavel. Věty v poměru stupňovacím: Neřekl to mně, jak potom tobě.J,
– Vyprávěl, jak šel do hospody. Jak(mile) napsal dopis, odnesl ho na poštu. Jestliže, protože, ačkoliv
Úpravy starších textů a slití s nově otagovanými
- Oba fajly zkopírovat do
korpus-cmp
- Provést tento příkaz:
cd korpus-cmp paste karaskovX-DB <(simplify-tags-csts.pl < karaskovX-JK) | perl -pe 's/"utkl-.."/"utkl"/g' \ | merge-csts | remove-MM.pl > ../../merge-import/neprirazeno/karaskovX-DB-JK
Anotátoři 2016
Závěrečné práce na Etalonu
- Kontrola korektních tagů:
check-tag-vert-tab.pl
- Vše umístěno v adresáři
/home/skoumal/PROJEKTY/INFRASTRUKTURA/Etalon/
Verze/0.9/1
…XML/0.9/1
…bez-XML
compare/
tagger
token
Obsah adresářů
Verze
- Zde jsou umístěny ručně otagované soubory – vertikály se třemi sloupci – bez přípon
- Verze 1 je verze po ručním tagování a opravách, před porovnáním s XML a automaticky otagovanými texty
- Další verze se tvoří po ručních opravách
XML
- Zde jsou umístěny další adresáře:
orig
– původní XML souborycsts-…
– mezikroky vzniklé při desambiguaciin-utf8
– vstup pro desambiguacihand-corr
– kopie ručně tagovaných souborů. Zde se opravují ručně tagované soubory.vert-check
– adresář pro sjednoceníXML
a.vrt
souborů. Zde se opravuje XML.vert-rules
– adresář s výsledky našeho tagovánívert-tagger
– adresář s výsledky featuramy
bez-XML
- Zde jsou soubory, ke kterým není XML, postupně se vytvoří.
compare
token
– vertikály jenom z forem; zde se kontroluje tokenizace.- Problémy:
- Věta uprostřed odstavce “obalená” uvozovkami se nesegmentuje.
- Iniciály, za nimiž následuje interpunkce (čárka, vykřičník apod.) mají poslední tečku odlepenou.
tagger
– vertikály o třech sloupcích; porovnávají se soubory označkované- ručně (bez přípony)
- automaticky s pravidly (.vrt)
- automaticky featuramou (.tag)
Úkoly pro Horkého
- Připravit texty z FicTree:
- zkontrolovat proti XML a opravit (XML nebo vrt)
- naporcovat na kousky
- Ostatní texty:
- zkontrolovat proti XML a opravit (XML nebo vrt)
- Bez XML:
- dodat XML
Evaluace
Trénování MorphoDiTy
Známé chyby
- Vid: homonymní slovesa (proudit, sladit, zahýbat…)