Toto je starší verze dokumentu!


Taháky pro anotaci SYN2020 a podobných korpusů

Tento tahák obsahuje problematická slova v korpusu SYN2020 a dalších, tagovaných podle stejných zásad. Nejdříve jsou uvedeny typy problematických slov (příjmení, číslovky atp.) a potom jednotlivá slovíčka:

Problematické typy

Číslovky sto, tisíc apod.

Na rozdíl od starších korpusů mají vždy tag Cz. Tvar tisíc, který se vyskytuje ve složených výrazech typu pět tisíc padesát má tag s genitivem a 1 na patnácté pozici: CzIP2---------1.
Tvar sto, který se vyskytuje ve složených výrazech jako se sto lidmi nebo bez sto padesáti lidí mají tag s příslušným pádem a 1 na patnácté pozici: CzNS7---------1, resp. CzNS2---------1.

Číslovky neurčité málo, méně apod.

Ve starších korpusech se rozlišovalo užití adverbiální (především u sloves) a číslovkové. V SYN2020 jsme skoro u všech ponechali pouze adverbium, až na mnoho, nemálo a nemnoho, u kterých se nadále rozlišuje číslovka a adverbium.

slovo tag použití
mnoho Dg-------1A---- mnoho mluví
Ca následuje „počítaný předmět“ (i nepočitatelný)
málo Dg-------1A---- málo unavený; málo pracuje; málo lidí
Ca chybná nabídka, bude odstraněno
NN jen málo chybělo; hlavně v dalších pádech s málem, bez mála atd.
víc, více, míň, méně, hodně Dg jediná možnost
nemálo, nemnoho Dg-------1N---- nemálo hloupý, o lahůdky nemnoho stojí
Ca s počítaným předmětem
pár Db užito jako číslovka
NN pěkný pár, (jeden) pár bot

Příjmení ve tvaru adjektiva

Tato příjmení mají vždy tag NN a ženská příjení mají lemma v ženském rodě:

  • pan Červený - lemma: Červený, tag: NNMS1-----A----
  • paní Červená - lemma: Červená, tag: NNFS1-----A----

Zpodstatnělá přídavná jména

Je třeba posoudit, zda ve větě slovo vystupuje spíše jako adjektivum nebo substantivum, a to podle rozvití:

  • cestující do Brna - AA
  • spokojení cestující - NN

Není-li slovo rozvito, určete podle svého citu.

Jednotlivá problematická slova

Adverbia, částice, spojky...

Mnoho slov se syntakticky chová jako adverbia, částice nebo spojky (příp. další slovní druhy) a není snadné rozhodnout, jaký mají mít tag. Zde je přehled těch nejčastějších:

  • ani - ani ryba, ani rak je J^; jinak je to TT (ani se neptej)
  • co - zájmeno (tázací nebo vztažné) PQ je to v případě, že dokážeme určit pád (co to je?; vše, co mám); spojovací výraz časový (od té doby, co ho znám), též den co den je Db; hovorový spojovací výraz (kluk, co přišel) je J,; v ostatních případech je to TT
  • dál - ve významu místním (šli dál a dál) je to Dg, ve významu časovém (zpíval dál) je to Db
  • jak - ve spojení jak jeden tak druhý je to J^; připojení vedlejší věty (viděl ho, jak zakopl) je J,; jakým způsobem je Db (může být obtížně odlišitelné od J,!), též jak to? je Db
  • jen - synonymum k pouze je Db; ve spojovacím výrazu jen co je to J,; jinak TT (jen tak tak, jen jestli!)
  • již, - v časovém významu je to Db (už přišel); jinak je to TT (to už nespravíš)
  • jedině, konečně - jako odvozenina od jediný, konečný (jakým způsobem? konečně) je to Db; jinak je to TT (jedině Tereza, no konečně)
  • přece - ve spojení a přece je to J^; jinak je to TT
  • tak - takto, takovým způsobem je Db; jak… tak, nebo připojení věty (a) tak je J^; výplňkové slovo je TT; nabídka II je chybná a bude odstraněna
  • to - zájmeno PD je to v případě, že dokážeme určit pád a objekt nebo situaci, na které zájmeno odkazuje; v ostatních případech je to TT (to se nám to hezky šlape, to jo)
  • totiž - vysvětlení, doplnění (nerozumím mu, mluví totiž anglicky je J^; jinak (upřesnění) je to TT (to je totiž tak)
  • třeba - je třeba je Db, synonymum k například je TT
  • však - synonymum k ale je J^; jinak TT (však jsem to říkal)

QR Code
QR Code wiki:user:skoumal:tahaky:syn2020 (generated for current page)