Toto je starší verze dokumentu!
Obsah
Taháky pro anotaci SYN2020 a podobných korpusů
Tento tahák obsahuje problematická slova v korpusu SYN2020 a dalších, tagovaných podle stejných zásad. Nejdříve jsou uvedeny typy problematických slov (příjmení, číslovky atp.) a potom jednotlivá slovíčka:
Problematické typy
Číslovky sto, tisíc apod.
Na rozdíl od starších korpusů mají vždy tag Cz
.
- Tvar tisíc, který se vyskytuje ve složených výrazech typu pět tisíc padesát má tag s genitivem a
1
na patnácté pozici:CzIP2---------1
. - Tvar sto, který se vyskytuje ve složených výrazech jako se sto lidmi nebo bez sto padesáti lidí mají tag s příslušným pádem a
1
na patnácté pozici:CzNS7---------1
, resp.CzNS2---------1
.
Číslovky neurčité málo, méně apod.
Ve starších korpusech se rozlišovalo užití adverbiální (především u sloves) a číslovkové. V SYN2020 jsme skoro u všech ponechali pouze adverbium, až na mnoho, nemálo a nemnoho, u kterých se nadále rozlišuje číslovka a adverbium.
slovo | tag | použití |
---|---|---|
mnoho | Dg-------1A---- | mnoho mluví |
Ca | následuje „počítaný předmět“ (i nepočitatelný) | |
málo | Dg-------1A---- | málo unavený; málo pracuje; málo lidí |
Ca | chybná nabídka, bude odstraněno | |
NN | jen málo chybělo; hlavně v dalších pádech s málem, bez mála atd. | |
víc, více, míň, méně, hodně | Dg | jediná možnost |
nemálo, nemnoho | Dg-------1N---- | nemálo hloupý, o lahůdky nemnoho stojí |
Ca | s počítaným předmětem | |
pár | Db | užito jako číslovka |
NN | pěkný pár, (jeden) pár bot |
Příjmení ve tvaru adjektiva
Tato příjmení mají vždy tag NN
a ženská příjení mají lemma v ženském rodě:
- pan Červený - lemma: Červený, tag: NNMS1-----A----
- paní Červená - lemma: Červená, tag: NNFS1-----A----
Zpodstatnělá přídavná jména
Je třeba posoudit, zda ve větě slovo vystupuje spíše jako adjektivum nebo substantivum, a to podle rozvití:
- cestující do Brna - AA
- spokojení cestující - NN
Není-li slovo rozvito, určete podle svého citu.
Jednotlivá problematická slova
Adverbia, částice, spojky...
Mnoho slov se syntakticky chová jako adverbia, částice nebo spojky (příp. další slovní druhy) a není snadné rozhodnout, jaký mají mít tag. Zde je přehled těch nejčastějších:
slovo | tag | užití |
---|---|---|
ani | J^ | ani ryba, ani rak |
TT | jinak (ani se neptej) | |
co | PQ | zájmeno (tázací nebo vztažné) v případě, že dokážeme určit pád (co to je?; vše, co mám) |
Db | spojovací výraz časový (od té doby, co ho znám, též den co den) | |
J, | hovorový spojovací výraz (kluk, co přišel) | |
TT | v ostatních případech | |
dál | Dg | ve významu místním (šli dál a dál) |
Db | ve významu časovém (zpíval dál) |
* jak - ve spojení jak jeden tak druhý je to J^
; připojení vedlejší věty (viděl ho, jak zakopl) je J,
; jakým způsobem je Db
(může být obtížně odlišitelné od J,
!), též jak to? je Db
- jen - synonymum k pouze je
Db
; ve spojovacím výrazu jen co je toJ,
; jinakTT
(jen tak tak, jen jestli!) - již, už - v časovém významu je to
Db
(už přišel); jinak je toTT
(to už nespravíš) - jedině, konečně - jako odvozenina od jediný, konečný (jakým způsobem? konečně) je to
Db
; jinak je toTT
(jedině Tereza, no konečně) - přece - ve spojení a přece je to
J^
; jinak je toTT
- tak - takto, takovým způsobem je
Db
; jak… tak, nebo připojení věty (a) tak jeJ^
; výplňkové slovo jeTT
; nabídkaII
je chybná a bude odstraněna - to - zájmeno
PD
je to v případě, že dokážeme určit pád a objekt nebo situaci, na které zájmeno odkazuje; v ostatních případech je toTT
(to se nám to hezky šlape, to jo) - totiž - vysvětlení, doplnění (nerozumím mu, mluví totiž anglicky je
J^
; jinak (upřesnění) je toTT
(to je totiž tak) - třeba - je třeba je
Db
, synonymum k například jeTT
- však - synonymum k ale je
J^
; jinakTT
(však jsem to říkal)