====== Taháky pro anotaci SYN2020 a podobných korpusů ======
Tento tahák obsahuje problematická slova v korpusu **SYN2020** a dalších, tagovaných podle stejných zásad. Nejdříve jsou uvedeny typy problematických slov (příjmení, číslovky atp.) a potom jednotlivá slovíčka:
===== Problematické typy =====
==== Číslovky sto, tisíc apod. ====
Na rozdíl od starších korpusů mají vždy tag **''Cz''**.
* Tvar **tisíc**, který se vyskytuje ve složených výrazech typu //pět tisíc padesát// má tag s genitivem a **''1''** na patnácté pozici: ''%%CzIP2---------1%%''.
* Tvar **sto**, který se vyskytuje ve složených výrazech jako //se sto lidmi// nebo //bez sto padesáti lidí// mají tag s příslušným pádem a **''1''** na patnácté pozici: ''%%CzNS7---------1%%'', resp. ''%%CzNS2---------1%%''.
==== Číslovky neurčité málo, méně apod. ====
Ve starších korpusech se rozlišovalo užití adverbiální (především u sloves) a číslovkové. V SYN2020 jsme skoro u všech ponechali pouze adverbium, až na //mnoho//, //nemálo// a //nemnoho//, u kterých se nadále rozlišuje číslovka a adverbium.
^ slovo ^ tag ^ použití ^
| **mnoho** | ''%%Dg-------1A----%%'' | //mnoho mluví// |
| | ''Ca'' | následuje "počítaný předmět" (i nepočitatelný) |
| **nemnoho** | ''%%Dg-------1N----%%'' | //o lahůdky nemnoho stojí// |
| | ''Ca'' | s počítaným předmětem |
| **málo** | ''%%Dg-------1A----%%'' | //málo unavený//; //málo pracuje//; //málo lidí// |
| | ''Ca'' | **chybná nabídka, bude odstraněno** |
| | ''NN'' | //ani to málo//; //to málo, co//; hlavně v dalších pádech //s málem//, //bez mála// atd. |
| **nemálo** | ''%%Dg-------1N----%%'' | //nemálo hloupý//; //nemálo pracuje//; //nemálo lidí// |
| | ''NN'' | jen v dalších pádech, //jeden z nemála// atd. |
| **víc**, **více**, **míň**, **méně**, **hodně** | ''Dg'' | jediná možnost |
| **pár** | ''Db'' | užito jako číslovka |
| | NN | //pěkný pár//, (//jeden//) //pár bot// |
==== Příjmení ve tvaru adjektiva ====
Tato příjmení mají vždy tag **''NN''** a ženská příjení mají lemma v ženském rodě:
* pan **Červený** - lemma: **Červený**, tag: **%%NNMS1-----A----%%**
* paní **Červená** - lemma: **Červená**, tag: **%%NNFS1-----A----%%**
==== Adverbia odvozená od adjektiv chovající se jako částice ====
Některá adverbia odvozená od adjektiv získala význam částice. Jde o slova jako **konečně**, **zřejmě** a další. V původním adverbiálním významu je možné je stupňovat, či negovat; jako částice jsou ustrnulé v tom jediném tvaru:
^ slovo ^ tag ^ užití ^
| **konečně** | **''Dg''** | v matematickém nebo fyzikálním smyslu; na rozdíl od //nekonečně// \\ úředně: //konečně platný// (v konečném znění) |
| | **''TT''** | //konečně přišli//; //no konečně, to je dost// |
| **zřejmě** | **''Dg''** | //zřejmým způsobem// |
| | **''TT''** | určitý stupeň jistoty; //zřejmě už odešli// |
Podobná jsou slova **jistě**, **samozřejmě** a další.
==== Zpodstatnělá přídavná jména ====
Je třeba posoudit, zda ve větě slovo vystupuje spíše jako adjektivum nebo substantivum, a to podle rozvití:
* **cestující** do Brna - **AG**
* spokojení **cestující** - **NN**
Není-li slovo rozvito, určete podle svého citu.
==== Cizí slova ====
U cizích slov vzniká problém, zda je tagovat jako **''F%''**, nebo jako česká slov. Řídíme se hlavně tím, zda je slovo už přejaté do češtiny, hlavně zdali se skloňuje. Postupujeme takto:
* Pokud se slovo v češtině nedá skloňovat, dostane značku **''F%''**.
* Dá-li se skloňovat, dostane **''NN''**, i když je součástí víceslovného cizojazyčného názvu, např. //Buffalo//(**''NN''**) //Sabres//(**''F%''**); v tom případě je to 1. pád singuláru.
* Je-li v nabídce u cizího slova **''AA''** (např. //New//) nebo jiný slovní druh, je to chybná nabídka; v takovém případě vybereme **''F%''**, nebo **''invalid''** (pokud **''F%''** chybí).
* Další problém je velikost počátečního písmene u lemmatu. Přijali jsme zásadu, že jestliže je v nabídce u cizího slova (tag **''F%''**) velké i malé písmeno, volíme **malé** (i když jde o součást názvu psanou s velkými počátečními písmeny). Změnili jsme názor a lemma bude totožné s formou (i co do velikosti písmen).
==== Novinářské šifry ====
Zkratky jednotlivých novinářů psané v závorkách někde na začátku článku, např. **(gap)**, nebo **(zkř, opo)** budou tagované jako zkratky:
( ( Z:-------------
gap gap BN-------------
) ) Z:-------------
===== Jednotlivá problematická slova =====
==== Adverbia, částice, spojky... ====
Mnoho slov se syntakticky chová jako adverbia, částice nebo spojky (příp. další slovní druhy) a není snadné rozhodnout, jaký mají mít tag. Zde je přehled těch nejčastějších:
^ slovo ^ tag ^ užití ^
| **ani** | **''J^''** | //ani ryba, ani rak// |
| | **''TT''**| jinak (//ani se neptej//) |
| **co** | **''PQ''** | zájmeno (tázací nebo vztažné) v případě, že dokážeme určit pád (//co to je?//; //vše, co mám//) |
| | **''Db''** | spojovací výraz časový (//od té doby, co ho znám//; též //den co den//); //co (možná)// + superlativ |
| | **''J,''** | hovorový spojovací výraz (//kluk, co přišel//) |
| | **''TT''** | v ostatních případech |
| **dál** | **''Dg''** | jde-li o 2. stupeň ke slovu //daleko// (//šli dál a dál//) |
| | **''Db''** | ostatní případy (//zpíval dál//; //pojďte dál//) |
| **jak** | **''J^''** | ve spojení s //tak// (//jak jeden, tak druhý//) |
| | **''J,''** | připojení vedlejší věty (//viděl ho, jak zakopl//) |
| | **''Db''** | jakým způsobem (může být obtížně odlišitelné od **''J,''**: //vyprávěl, jak jel na hory// -- buď vyprávěl o cestě (**''J,''**), anebo o tom, jakým způsobem cestoval (**''Db''**); též //jak to?// \\ **POZOR**: // jak si usteleš, tak si lehneš// je **''Db''** |
| **jedině** | **''Db''** | //jedině Tereza// |
| | **''Dg''** | **chybná nabídka, bude odstraněna** |
| **jen** | **''Db''** | synonymum k //pouze// |
| | **''J,''** | ve spojovacím výrazu //jen co// (//jen co si lehl, usnul//)|
| | **''TT''** | v ostatních případech (//jen tak tak//; //jen jestli!//) |
| **již**, **už** | **''Db''** | v časovém významu (//už přišel//) |
| | **''TT''** | jinak (//to už nespravíš//) |
| **přece** | **''J^''** | ve spojení //a přece// |
| | **''TT''** | jinak |
| **tak** | **''Db''** | takto; takovým způsobem |
| | **''J^''** | //jak... tak// (//jak jeden, tak druhý//), \\ nebo připojení věty //(a) tak// (//nepřišel, tak jsme jeli sami//) \\ **POZOR**: ve větě //jak řekli, tak udělali// je //jak// i //tak// **''Db''** |
| | **''TT''** | výplňkové slovo |
| | **''II''** | **chybná nabídka, bude odstraněna** |
| **to** | **''PD''** | zájmeno je to v případě, že dokážeme určit pád a objekt nebo situaci, na které zájmeno odkazuje |
| | **''TT''** | v ostatních případech (//to se nám to hezky šlape//; //to jo//) |
| **totiž** | **''J^''** | vysvětlení, doplnění (//nerozumím mu, mluví totiž anglicky//) |
| | **''TT''** | jinak (upřesnění) (//to je totiž tak//) |
| **trochu** | **''NN''** | je-li zleva rozvito přívlastkem: //malou trochu//, //jakou trochu?// |
| | **''Db''** | jinak |
| **třeba** | **''Db''** | //je třeba// |
| | **''TT''** | synonymum k //například// |
| **však** | **''J^''** | synonymum k //ale// |
| | **''TT''** | jinak (//však jsem to říkal//) |