Celkem pozic: 1062255, vět: 73343
Bez &doc;: 1061492, vět: 72533
Hlavní adresář: /home/skoumal/PROJEKTY/GACR1012
Podadresáře:
data - texty v různém stadiu anotace od anotátorůcompare - hotové texty ke kontrole nebo k porovnání s PDT; má podadresáře:merge:done - zkontrolovanéarchivsemiarchivsemidonedone-osoby - obsah done s přidaným 4. sloupcem (tagy po klasické desambiguaci) a přidanou osobou grep " V[pqs].....-" *
(omrknout, co udělala desambiguace blbě)
768.265292.968212.252263.0452.094.338571.865903.858618.615Chvíli chvíle NNFS3P4… (nikoliv —)for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tmůj(\tPS....P)/\tnáš$1/' $ff; done for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\ttvůj(\tPS....P)/\tváš$1/' $ff; done for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tjeho(\tPS....P)/\tjejich$1/' $ff; done for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tjeho(\tPS...F)/\tjejí$1/' $ff; done for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tjá(\tPP.P)/\tmy$1/' $ff; done for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\tty(\tPP.P)/\tvy$1/' $ff; done for ff in *.1-3; do echo $ff; perl -i.bak -pe 's/\ton(\tP[P5].P)/\toni$1/' $ff; done
cut -f3 *.1-3 | sort -u | grep "^V.*-$"
cut -f3 *.1-3 | sort -u | grep "V[psq].....-"
Db——–[AN]—- už ve slovníku u slov zřídka, právem, vždy(cky)J^, cos jako J,[word="[jJ][eE][hH][oO]" & lemma="on"] [lemma="jeho"]
[word="[jJ][eE][hH][oO][žŽ]" & tag="PJ.*"] [word="[jJ][eE][hH][oO][žŽ]" & tag="P1.*"]
[lemma="se" & tag="P7..4.*"] [lemma="s" & tag="RV..7.*"]
[lemma="co" & tag="PQ..[14].*"] [lemma="co" & tag="P4.*"]
RR--2---------- (a příslušná násl. slova)TT------------- J,------------- J^------------- Db------------- Dg-------1A---- II-------------
podle Mileniny tabulky v /home/milena/SYNTAX/ETALON/casticoadverbia.xls
TT – až večer, někdy lze nahradit slovem 'teprve'; až do konceJ, – až přijdeš,…; Tak dlouho…, až se ucho utrhne.J^ – dva až pětTT – Ať už tě tu nevidím! Tak ať!J, – Ať dělám, co dělám,… Řekl, ať…J^ – ať - nebo, ať - či, ať - aťJ^ TT – Ale! To je ale zima.J,TT – Jen aby! Aby tak…AC (krátký tvar adjektiva)DgNN – Spíš jen v nepřímých pádechRR--2RR--3Db – Celkem to dělá 52 Kč.TT – Je mi to celkem jedno.NNPQ--1PQ--4TTDg-------2A – lemma daleko; Posunout se dále, jít dáleDb – Za další, dále uděláme toto, Dále!NNViDb – Div se z toho nezbláznil.NN – Zvíře.Db – Jakým způsobem. Jak řekl, tak udělal. Jak jsi moudrý! Místo jako.^J – Párová spojka: jak Petr, tak Pavel. Věty v poměru stupňovacím: Neřekl to mně, jak potom tobě.J, – Vyprávěl, jak šel do hospody. Jak(mile) napsal dopis, odnesl ho na poštu. Jestliže, protože, ačkolivkorpus-cmpcd korpus-cmp paste karaskovX-DB <(simplify-tags-csts.pl < karaskovX-JK) | perl -pe 's/"utkl-.."/"utkl"/g' \ | merge-csts | remove-MM.pl > ../../merge-import/neprirazeno/karaskovX-DB-JK
check-tag-vert-tab.pl/home/skoumal/PROJEKTY/INFRASTRUKTURA/Etalon/Verze/0.9/1…XML/0.9/1…bez-XMLcompare/taggertokenorig – původní XML souborycsts-… – mezikroky vzniklé při desambiguaciin-utf8 – vstup pro desambiguacihand-corr – kopie ručně tagovaných souborů. Zde se opravují ručně tagované soubory.vert-check – adresář pro sjednocení XML a .vrt souborů. Zde se opravuje XML.vert-rules – adresář s výsledky našeho tagovánívert-tagger – adresář s výsledky featuramytoken – vertikály jenom z forem; zde se kontroluje tokenizace.tagger – vertikály o třech sloupcích; porovnávají se soubory označkované