Celkem pozic: 1062255
, vět: 73343
Bez &doc;
: 1061492
, vět: 72533
Hlavní adresář: /home/skoumal/PROJEKTY/GACR1012
Podadresáře:
data
- texty v různém stadiu anotace od anotátorůcompare
- hotové texty ke kontrole nebo k porovnání s PDT; má podadresáře:merge
:done
- zkontrolovanéarchiv
semiarchiv
semidone
done-osoby
- obsah done
s přidaným 4. sloupcem (tagy po klasické desambiguaci) a přidanou osobou grep " V[pqs].....-" *
(omrknout, co udělala desambiguace blbě)
768.265
292.968
212.252
263.045
2.094.338
571.865
903.858
618.615
Chvíli chvíle NNFS3
P4…
(nikoliv —
)for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tmůj(\tPS....P)/\tnáš$1/' $ff; done for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\ttvůj(\tPS....P)/\tváš$1/' $ff; done for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tjeho(\tPS....P)/\tjejich$1/' $ff; done for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tjeho(\tPS...F)/\tjejí$1/' $ff; done for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tjá(\tPP.P)/\tmy$1/' $ff; done for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tty(\tPP.P)/\tvy$1/' $ff; done for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\ton(\tP[P5].P)/\toni$1/' $ff; done
cut -f3 *.1-3 | sort -u | grep "^V.*-$"
cut -f3 *.1-3 | sort -u | grep "V[psq].....-"
Db——–[AN]—-
už ve slovníku u slov zřídka, právem, vždy(cky)J^
, cos jako J,
[word="[jJ][eE][hH][oO]" & lemma="on"] [lemma="jeho"]
[word="[jJ][eE][hH][oO][žŽ]" & tag="PJ.*"] [word="[jJ][eE][hH][oO][žŽ]" & tag="P1.*"]
[lemma="se" & tag="P7..4.*"] [lemma="s" & tag="RV..7.*"]
[lemma="co" & tag="PQ..[14].*"] [lemma="co" & tag="P4.*"]
RR--2----------
(a příslušná násl. slova)TT------------- J,------------- J^------------- Db------------- Dg-------1A---- II-------------
podle Mileniny tabulky v /home/milena/SYNTAX/ETALON/casticoadverbia.xls
TT
– až večer, někdy lze nahradit slovem 'teprve'; až do konceJ,
– až přijdeš,…; Tak dlouho…, až se ucho utrhne.J^
– dva až pětTT
– Ať už tě tu nevidím! Tak ať!J,
– Ať dělám, co dělám,… Řekl, ať…J^
– ať - nebo, ať - či, ať - aťJ^
TT
– Ale! To je ale zima.J,
TT
– Jen aby! Aby tak…AC
(krátký tvar adjektiva)Dg
NN
– Spíš jen v nepřímých pádechRR--2
RR--3
Db
– Celkem to dělá 52 Kč.TT
– Je mi to celkem jedno.NN
PQ--1
PQ--4
TT
Dg-------2A
– lemma daleko
; Posunout se dále, jít dáleDb
– Za další, dále uděláme toto, Dále!NN
Vi
Db
– Div se z toho nezbláznil.NN
– Zvíře.Db
– Jakým způsobem. Jak řekl, tak udělal. Jak jsi moudrý! Místo jako.^J
– Párová spojka: jak Petr, tak Pavel. Věty v poměru stupňovacím: Neřekl to mně, jak potom tobě.J,
– Vyprávěl, jak šel do hospody. Jak(mile) napsal dopis, odnesl ho na poštu. Jestliže, protože, ačkolivkorpus-cmp
cd korpus-cmp paste karaskovX-DB <(simplify-tags-csts.pl < karaskovX-JK) | perl -pe 's/"utkl-.."/"utkl"/g' \ | merge-csts | remove-MM.pl > ../../merge-import/neprirazeno/karaskovX-DB-JK
check-tag-vert-tab.pl
/home/skoumal/PROJEKTY/INFRASTRUKTURA/Etalon/
Verze/0.9/1
…XML/0.9/1
…bez-XML
compare/
tagger
token
orig
– původní XML souborycsts-…
– mezikroky vzniklé při desambiguaciin-utf8
– vstup pro desambiguacihand-corr
– kopie ručně tagovaných souborů. Zde se opravují ručně tagované soubory.vert-check
– adresář pro sjednocení XML
a .vrt
souborů. Zde se opravuje XML.vert-rules
– adresář s výsledky našeho tagovánívert-tagger
– adresář s výsledky featuramytoken
– vertikály jenom z forem; zde se kontroluje tokenizace.tagger
– vertikály o třech sloupcích; porovnávají se soubory označkované