Toto je starší verze dokumentu!
Obsah
Taháky pro anotaci SYN2020 a podobných korpusů
Tento tahák obsahuje problematická slova v korpusu SYN2020 a dalších, tagovaných podle stejných zásad. Nejdříve jsou uvedeny typy problematických slov (příjmení, číslovky atp.) a potom jednotlivá slovíčka:
Problematické typy
Číslovky sto, tisíc apod.
Na rozdíl od starších korpusů mají vždy tag Cz
.
- Tvar tisíc, který se vyskytuje ve složených výrazech typu pět tisíc padesát má tag s genitivem a
1
na patnácté pozici:CzIP2---------1
. - Tvar sto, který se vyskytuje ve složených výrazech jako se sto lidmi nebo bez sto padesáti lidí mají tag s příslušným pádem a
1
na patnácté pozici:CzNS7---------1
, resp.CzNS2---------1
.
Číslovky neurčité málo, méně apod.
Ve starších korpusech se rozlišovalo užití adverbiální (především u sloves) a číslovkové. V SYN2020 jsme skoro u všech ponechali pouze adverbium, až na mnoho, nemálo a nemnoho, u kterých se nadále rozlišuje číslovka a adverbium.
slovo | tag | použití |
---|---|---|
mnoho | Dg-------1A---- | mnoho mluví |
Ca | následuje „počítaný předmět“ (i nepočitatelný) | |
nemnoho | Dg-------1N---- | o lahůdky nemnoho stojí |
Ca | s počítaným předmětem | |
málo | Dg-------1A---- | málo unavený; málo pracuje; málo lidí |
Ca | chybná nabídka, bude odstraněno | |
NN | ani to málo; to málo, co; hlavně v dalších pádech s málem, bez mála atd. | |
nemálo | Dg-------1N---- | nemálo hloupý; nemálo pracuje; nemálo lidí |
NN | jen v dalších pádech, jeden z nemála atd. | |
víc, více, míň, méně, hodně | Dg | jediná možnost |
pár | Db | užito jako číslovka |
NN | pěkný pár, (jeden) pár bot |
Příjmení ve tvaru adjektiva
Tato příjmení mají vždy tag NN
a ženská příjení mají lemma v ženském rodě:
- pan Červený - lemma: Červený, tag: NNMS1-----A----
- paní Červená - lemma: Červená, tag: NNFS1-----A----
Adverbia odvozená od adjektiv chovající se jako částice
Některá adverbia odvozená od adjektiv získala význam částice. Jde o slova jako konečně, zřejmě a další. V původním adverbiálním významu je možné je stupňovat, či negovat; jako částice jsou ustrnulé v tom jediném tvaru:
slovo | tag | užití |
---|---|---|
konečně | Dg | v matematickém nebo fyzikálním smyslu; na rozdíl od nekonečně úředně: konečně platný (v konečném znění) |
TT | konečně přišli; no konečně, to je dost | |
zřejmě | Dg | zřejmým způsobem |
TT | určitý stupeň jistoty; zřejmě už odešli |
Podobná jsou slova jistě, samozřejmě a další.
Zpodstatnělá přídavná jména
Je třeba posoudit, zda ve větě slovo vystupuje spíše jako adjektivum nebo substantivum, a to podle rozvití:
- cestující do Brna - AG
- spokojení cestující - NN
Není-li slovo rozvito, určete podle svého citu.
Cizí slova
U cizích slov vzniká problém, zda je tagovat jako F%
, nebo jako česká slov. Řídíme se hlavně tím, zda je slovo už přejaté do češtiny, hlavně zdali se skloňuje. Postupujeme takto:
- Pokud se slovo v češtině nedá skloňovat, dostane značku
F%
. - Dá-li se skloňovat, dostane
NN
, i když je součástí víceslovného cizojazyčného názvu, např. Buffalo(NN
) Sabres(F%
); v tom případě je to 1. pád singuláru. - Je-li v nabídce u cizího slova
AA
(např. New) nebo jiný slovní druh, je to chybná nabídka; v takovém případě vyberemeF%
, neboinvalid
(pokudF%
chybí). - Další problém je velikost počátečního písmene u lemmatu.
Přijali jsme zásadu, že jestliže je v nabídce u cizího slova (tagZměnili jsme názor a lemma bude totožné s formou (i co do velikosti písmen).F%
) velké i malé písmeno, volíme malé (i když jde o součást názvu psanou s velkými počátečními písmeny).
Novinářské šifry
Zkratky jednotlivých novinářů psané v závorkách někde na začátku článku, např. (gap), nebo (zkř, opo) budou tagované jako zkratky:
( ( Z:------------- gap gap BN------------- ) ) Z:-------------
Jednotlivá problematická slova
Adverbia, částice, spojky...
Mnoho slov se syntakticky chová jako adverbia, částice nebo spojky (příp. další slovní druhy) a není snadné rozhodnout, jaký mají mít tag. Zde je přehled těch nejčastějších:
slovo | tag | užití |
---|---|---|
ani | J^ | ani ryba, ani rak |
TT | jinak (ani se neptej) | |
co | PQ | zájmeno (tázací nebo vztažné) v případě, že dokážeme určit pád (co to je?; vše, co mám) |
Db | spojovací výraz časový (od té doby, co ho znám; též den co den) | |
J, | hovorový spojovací výraz (kluk, co přišel) | |
TT | v ostatních případech | |
dál | Dg | jde-li o 2. stupeň ke slovu daleko (šli dál a dál) |
Db | ostatní případy (zpíval dál; pojďte dál) | |
jak | J^ | ve spojení s tak (jak jeden, tak druhý) |
J, | připojení vedlejší věty (viděl ho, jak zakopl) | |
Db | jakým způsobem (může být obtížně odlišitelné od J, : vyprávěl, jak jel na hory – buď vyprávěl o cestě (J, ), anebo o tom, jakým způsobem cestoval (Db ); též jak to? POZOR: jak si usteleš, tak si lehneš je Db |
|
jedině | Db | jedině Tereza |
Dg | chybná nabídka, bude odstraněna | |
jen | Db | synonymum k pouze |
J, | ve spojovacím výrazu jen co (jen co si lehl, usnul) | |
TT | v ostatních případech (jen tak tak; jen jestli!) | |
již, už | Db | v časovém významu (už přišel) |
TT | jinak (to už nespravíš) | |
přece | J^ | ve spojení a přece |
TT | jinak | |
tak | Db | takto; takovým způsobem |
J^ | jak… tak (jak jeden, tak druhý), nebo připojení věty (a) tak (nepřišel, tak jsme jeli sami) POZOR: ve větě jak řekli, tak udělali je jak i tak Db |
|
TT | výplňkové slovo | |
II | chybná nabídka, bude odstraněna | |
to | PD | zájmeno je to v případě, že dokážeme určit pád a objekt nebo situaci, na které zájmeno odkazuje |
TT | v ostatních případech (to se nám to hezky šlape; to jo) | |
totiž | J^ | vysvětlení, doplnění (nerozumím mu, mluví totiž anglicky) |
TT | jinak (upřesnění) (to je totiž tak) | |
trochu | NN | je-li zleva rozvito přívlastkem: malou trochu, jakou trochu? |
Db | jinak | |
třeba | Db | je třeba |
TT | synonymum k například | |
však | J^ | synonymum k ale |
TT | jinak (však jsem to říkal) |