Toto je starší verze dokumentu!
Obsah
Taháky pro anotaci SYN2020 a podobných korpusů
Tento tahák obsahuje problematická slova v korpusu SYN2020 a dalších, tagovaných podle stejných zásad. Nejdříve jsou uvedeny typy problematických slov (příjmení, číslovky atp.) a potom jednotlivá slovíčka:
Problematické typy
Číslovky sto, tisíc apod.
Na rozdíl od starších korpusů mají vždy tag Cz
.
- Tvar tisíc, který se vyskytuje ve složených výrazech typu pět tisíc padesát má tag s genitivem a
1
na patnácté pozici:CzIP2---------1
. - Tvar sto, který se vyskytuje ve složených výrazech jako se sto lidmi nebo bez sto padesáti lidí mají tag s příslušným pádem a
1
na patnácté pozici:CzNS7---------1
, resp.CzNS2---------1
.
Číslovky neurčité málo, méně apod.
Ve starších korpusech se rozlišovalo užití adverbiální (především u sloves) a číslovkové. V SYN2020 jsme skoro u všech ponechali pouze adverbium, až na mnoho, nemálo a nemnoho, u kterých se nadále rozlišuje číslovka a adverbium.
slovo | tag | použití |
---|---|---|
mnoho | Dg-------1A---- | mnoho mluví |
Ca | následuje „počítaný předmět“ (i nepočitatelný) | |
málo | Dg-------1A---- | málo unavený; málo pracuje; málo lidí |
Ca | chybná nabídka, bude odstraněno | |
NN | jen málo chybělo; hlavně v dalších pádech s málem, bez mála atd. | |
víc, více, míň, méně, hodně | Dg | jediná možnost |
nemálo, nemnoho | Dg-------1N---- | nemálo hloupý, o lahůdky nemnoho stojí |
Ca | s počítaným předmětem | |
pár | Db | užito jako číslovka |
NN | pěkný pár, (jeden) pár bot |
Příjmení ve tvaru adjektiva
Tato příjmení mají vždy tag NN
a ženská příjení mají lemma v ženském rodě:
- pan Červený - lemma: Červený, tag: NNMS1-----A----
- paní Červená - lemma: Červená, tag: NNFS1-----A----
Zpodstatnělá přídavná jména
Je třeba posoudit, zda ve větě slovo vystupuje spíše jako adjektivum nebo substantivum, a to podle rozvití:
- cestující do Brna - AA
- spokojení cestující - NN
Není-li slovo rozvito, určete podle svého citu.
Jednotlivá problematická slova
Adverbia, částice, spojky...
Mnoho slov se syntakticky chová jako adverbia, částice nebo spojky (příp. další slovní druhy) a není snadné rozhodnout, jaký mají mít tag. Zde je přehled těch nejčastějších:
- ani - ani ryba, ani rak je
J^
; jinak je toTT
(ani se neptej) - co - zájmeno (tázací nebo vztažné)
PQ
je to v případě, že dokážeme určit pád (co to je?; vše, co mám); spojovací výraz časový (od té doby, co ho znám), též den co den jeDb
; hovorový spojovací výraz (kluk, co přišel) jeJ,
; v ostatních případech je toTT
- dál - ve významu místním (šli dál a dál) je to
Dg
, ve významu časovém (zpíval dál) je toDb
- jak - ve spojení jak jeden tak druhý je to
J^
; připojení vedlejší věty (viděl ho, jak zakopl) jeJ,
; jakým způsobem jeDb
(může být obtížně odlišitelné odJ,
!), též jak to? jeDb
- jen - synonymum k pouze je
Db
; ve spojovacím výrazu jen co je toJ,
; jinakTT
(jen tak tak, jen jestli!) - již, už - v časovém významu je to
Db
(už přišel); jinak je toTT
(to už nespravíš) - jedině, konečně - jako odvozenina od jediný, konečný (jakým způsobem? konečně) je to
Db
; jinak je toTT
(jedině Tereza, no konečně) - přece - ve spojení a přece je to
J^
; jinak je toTT
- tak - takto, takovým způsobem je
Db
; jak… tak, nebo připojení věty (a) tak jeJ^
; výplňkové slovo jeTT
; nabídkaII
je chybná a bude odstraněna - to - zájmeno
PD
je to v případě, že dokážeme určit pád a objekt nebo situaci, na které zájmeno odkazuje; v ostatních případech je toTT
(to se nám to hezky šlape, to jo) - totiž - vysvětlení, doplnění (nerozumím mu, mluví totiž anglicky je
J^
; jinak (upřesnění) je toTT
(to je totiž tak) - třeba - je třeba je
Db
, synonymum k například jeTT
- však - synonymum k ale je
J^
; jinakTT
(však jsem to říkal)