Wiki spuštěna 24. 7. 2025

Příprava etalonu pro morfologickou a syntaktickou analýzu

Texty v etalonu

Celkem pozic: 1062255, vět: 73343
Bez &doc;: 1061492, vět: 72533

Texty k anotaci

NOV: 875.581 pozic
PUB: 814.418 pozic
SCI: 1.066.604 pozic

Umístění textů

Hlavní adresář: /home/skoumal/PROJEKTY/GACR1012
Podadresáře:

data - texty v různém stadiu anotace od anotátorů
compare - hotové texty ke kontrole nebo k porovnání s PDT; má podadresáře:
- merge:
  - done - zkontrolované
  - archiv
  - semiarchiv
  - semidone
  - done-osoby - obsah done s přidaným 4. sloupcem (tagy po klasické desambiguaci) a přidanou osobou
    tagy, kam se nedoplnila osoba, najdeme takto:
```
grep " V[pqs].....-" *
```
    (omrknout, co udělala desambiguace blbě)

Inventura duben 2016

Inventura duben 2016

Inventura - duben 2017

Podrobná inventura ke konci dubna 2017
Odevzdáno: 768.265
- PUB: 292.968
- SCI: 212.252
- NOV: 263.045
K dispozici: 2.094.338
- PUB: 571.865
- SCI: 903.858
- NOV: 618.615

Další postup

Další postup anotace

Etalon z PDT

Příprava Etalonu z PDT

Porovnání anotátorů, taggerů

Porovnání

Kontrola

Chyby a hromadné opravy

Chvíli chvíle NNFS3
co + P4… (nikoliv —)
Přidání osoby a vidu: viz Přidání osoby do SYNv4

Opravy lemmat:

for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tmůj(\tPS....P)/\tnáš$1/' $ff; done
for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\ttvůj(\tPS....P)/\tváš$1/' $ff; done
for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tjeho(\tPS....P)/\tjejich$1/' $ff; done
for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tjeho(\tPS...F)/\tjejí$1/' $ff; done
for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tjá(\tPP.P)/\tmy$1/' $ff; done
for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tty(\tPP.P)/\tvy$1/' $ff; done
for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\ton(\tP[P5].P)/\toni$1/' $ff; done

Zkontrolovat slovesa bez vidu:
```
cut -f3 *.1-3 | sort -u | grep "^V.*-$"
```

Zkontrolovat příčestí bez osoby:

cut -f3 *.1-3 | sort -u | grep "V[psq].....-"

Problematické tagy (a lemmata)

Db——–[AN]—- už ve slovníku u slov zřídka, právem, vždy(cky)
vždyťs jako J^, cos jako J,
negace u NN: zkušenost NNA x nezkušenost NNN, nemoc NNA (Seznam)

Úkoly pro supervizora

jeho: PP (osobní) vs PS (přivlastňovací)

[word="[jJ][eE][hH][oO]" & lemma="on"]
[lemma="jeho"]

jehož: PJ (vztažné) vs P1 (vztažné přivlastňovací)

[word="[jJ][eE][hH][oO][žŽ]" & tag="PJ.*"]
[word="[jJ][eE][hH][oO][žŽ]" & tag="P1.*"]

se: P7 vs RV

[lemma="se" & tag="P7..4.*"]
[lemma="s" & tag="RV..7.*"]

co: PQ vs P4

[lemma="co" & tag="PQ..[14].*"]
[lemma="co" & tag="P4.*"]

žít: žít vs žnout
negramatické kolokace
“předložky” počátkem, začátkem, koncem RR--2---------- (a příslušná násl. slova)
“dustbin”, výběr převážně z
```
TT-------------
J,-------------
J^-------------
Db-------------
Dg-------1A----
II-------------
```
podle Mileniny tabulky v /home/milena/SYNTAX/ETALON/casticoadverbia.xls
- až:
  - TT – až večer, někdy lze nahradit slovem 'teprve'; až do konce
  - J, – až přijdeš,…; Tak dlouho…, až se ucho utrhne.
  - J^ – dva až pět
- ať:
  - TT – Ať už tě tu nevidím! Tak ať!
  - J, – Ať dělám, co dělám,… Řekl, ať…
  - J^ – ať - nebo, ať - či, ať - ať
- ale:
  - J^
  - TT – Ale! To je ale zima.
- aby
  - J,
  - TT – Jen aby! Aby tak…
- Další várka:
- blízko
  - AC (krátký tvar adjektiva)
  - Dg
  - NN – Spíš jen v nepřímých pádech
  - RR--2
  - RR--3
- celkem
  - Db – Celkem to dělá 52 Kč.
  - TT – Je mi to celkem jedno.
  - NN
- copak
  - PQ--1
  - PQ--4
  - TT
- dále
  - Dg-------2A – lemma daleko; Posunout se dále, jít dále
  - Db – Za další, dále uděláme toto, Dále!
- div
  - NN
  - Vi
  - Db – Div se z toho nezbláznil.
- jak
  - NN – Zvíře.
  - Db – Jakým způsobem. Jak řekl, tak udělal. Jak jsi moudrý! Místo jako.
  - ^J – Párová spojka: jak Petr, tak Pavel. Věty v poměru stupňovacím: Neřekl to mně, jak potom tobě.
  - J, – Vyprávěl, jak šel do hospody. Jak(mile) napsal dopis, odnesl ho na poštu. Jestliže, protože, ačkoliv

Úpravy starších textů a slití s nově otagovanými

Oba fajly zkopírovat do korpus-cmp

Provést tento příkaz:

cd korpus-cmp
paste karaskovX-DB <(simplify-tags-csts.pl < karaskovX-JK) | perl -pe 's/"utkl-.."/"utkl"/g' \
| merge-csts | remove-MM.pl > ../../merge-import/neprirazeno/karaskovX-DB-JK

Anotátoři 2016

Závěrečné práce na Etalonu

Kontrola korektních tagů: check-tag-vert-tab.pl
Vše umístěno v adresáři /home/skoumal/PROJEKTY/INFRASTRUKTURA/Etalon/
- Verze/0.9/1…
- XML/0.9/1…
- bez-XML
- compare/
  - tagger
  - token

Obsah adresářů

Verze

Zde jsou umístěny ručně otagované soubory – vertikály se třemi sloupci – bez přípon
Verze 1 je verze po ručním tagování a opravách, před porovnáním s XML a automaticky otagovanými texty
Další verze se tvoří po ručních opravách

XML

Zde jsou umístěny další adresáře:
- orig – původní XML soubory
- csts-… – mezikroky vzniklé při desambiguaci
- in-utf8 – vstup pro desambiguaci
- hand-corr – kopie ručně tagovaných souborů. Zde se opravují ručně tagované soubory.
- vert-check – adresář pro sjednocení XML a .vrt souborů. Zde se opravuje XML.
- vert-rules – adresář s výsledky našeho tagování
- vert-tagger – adresář s výsledky featuramy

bez-XML

Zde jsou soubory, ke kterým není XML, postupně se vytvoří.

compare

token – vertikály jenom z forem; zde se kontroluje tokenizace.
- Problémy:
  - Věta uprostřed odstavce “obalená” uvozovkami se nesegmentuje.
  - Iniciály, za nimiž následuje interpunkce (čárka, vykřičník apod.) mají poslední tečku odlepenou.
tagger – vertikály o třech sloupcích; porovnávají se soubory označkované
- ručně (bez přípony)
- automaticky s pravidly (.vrt)
- automaticky featuramou (.tag)

Úkoly pro Horkého

Připravit texty z FicTree:
- zkontrolovat proti XML a opravit (XML nebo vrt)
- naporcovat na kousky
Ostatní texty:
- zkontrolovat proti XML a opravit (XML nebo vrt)
Bez XML:
- dodat XML

Table of Contents