Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Both sides previous revision Předchozí verze
Následující verze
Předchozí verze
wiki:user:skoumal:tahaky:rucni-anotace [2021/03/29 20:55]
skoumal [Ruční anotace korpusů - návody a taháky]
wiki:user:skoumal:tahaky:rucni-anotace [2021/10/13 23:24] (aktuální)
skoumal [Pomůcky a nástroje]
Řádek 1: Řádek 1:
 +<ifvar lang=en>
 +====== Manual annotation of corpora ======
 +
 +There are several types of annotated corpora. Some guides are only in Czech
 +
 +<​else>​
 ====== Ruční anotace korpusů - návody a taháky ====== ====== Ruční anotace korpusů - návody a taháky ======
  
 Nápovědy se liší podle typu anotovaného korpusu. V zásadě anotujeme tři typy korpusů: Nápovědy se liší podle typu anotovaného korpusu. V zásadě anotujeme tři typy korpusů:
  
-  * Korpusy řady [[wiki:​user:​skoumal:​tahaky:​syn2020|SYN podle nového značkování]] (typ SYN2020)+  * Korpusy řady [[wiki:​user:​skoumal:​tahaky:​syn2020|SYN podle nového značkování]] (typ SYN2020)
 +  * [[wiki:​user:​skoumal:​tahaky:​Verbtagy]] v korpusu SYN2020.
   * [[wiki:​user:​skoumal:​tahaky:​ortofon-syn2020|Ortofon podle nového značkování]].   * [[wiki:​user:​skoumal:​tahaky:​ortofon-syn2020|Ortofon podle nového značkování]].
   * [[wiki:​user:​skoumal:​tahaky:​ortofon-synv8|Ortofon podle starého značkování]].   * [[wiki:​user:​skoumal:​tahaky:​ortofon-synv8|Ortofon podle starého značkování]].
  
-Kromě návodů pro jednotlivé typy, jsou zde i návody obecné, platné pro všechny korpusy, jako "Jak značkovat cizí slova" apod.+Kromě návodů pro jednotlivé typy korpusůje zde soupis nástrojů a pomůcek, které můžete přanotaci využít.
  
 ===== Pomůcky a nástroje ===== ===== Pomůcky a nástroje =====
Řádek 13: Řádek 20:
 Někdy je nabídka při anotaci omezena programem nebo předchozí anotací a my si nejsme jisti, zda si máme vybrat z předložené nabídky, nebo volbu označit jako invalid. Můžeme tedy nabídku zjistit ve webové aplikaci. Také se můžeme podívat do publikovaných korpusů, abychom si ověřili, jak se určité slovo obvykle značkuje. Někdy jsou ale v korpusu chyby - přednost má to, co je napsané v příslušném taháku. Zde je přehled pomůcek a nástrojů, které můžeme použít: Někdy je nabídka při anotaci omezena programem nebo předchozí anotací a my si nejsme jisti, zda si máme vybrat z předložené nabídky, nebo volbu označit jako invalid. Můžeme tedy nabídku zjistit ve webové aplikaci. Také se můžeme podívat do publikovaných korpusů, abychom si ověřili, jak se určité slovo obvykle značkuje. Někdy jsou ale v korpusu chyby - přednost má to, co je napsané v příslušném taháku. Zde je přehled pomůcek a nástrojů, které můžeme použít:
  
-  * Morfologická nabídka pro SYN2020: http://​utkl.ff.cuni.cz/​morfflex.php. Do vstupního políčka můžete zadat několik slov, přičemž v některých případech je výsledek závislý na kontextu. Zpracování bohužel trvá asi 15 vteřin, tak mějte trpělivost. \\ Aplikace nabízí 4 různá zobrazení výsledku, přičemž napoprvé se zobrazí výsledek **''​LanGR''​**. Ten se hodí, pokud potřebujete pracovat s verbtagy, jinak pro vás bude lepší výsledek **''​Lemmata''​**:​+  * Morfologická nabídka pro SYN2020: http://​utkl.ff.cuni.cz/​morfflex.php. Do vstupního políčka můžete zadat několik slov, přičemž v některých případech je výsledek závislý na kontextu. Zpracování ​<del>bohužel trvá asi 15 vteřin, tak mějte trpělivost</​del>​ jsme urychlili, takže práce je mnohem příjemnější. \\ Aplikace nabízí 4 různá zobrazení výsledku, přičemž napoprvé se zobrazí výsledek **''​LanGR''​**. Ten se hodí, pokud potřebujete pracovat s verbtagy, jinak pro vás bude lepší výsledek **''​Lemmata''​**:​
     * **''​Morfflex''​**:​ výsledek ze slovníku morfflex vytvořeného na MFF. Jde o verzi z loňského roku, mezitím byl morfflex ještě dále opraven a vylepšen (a místy změněn).     * **''​Morfflex''​**:​ výsledek ze slovníku morfflex vytvořeného na MFF. Jde o verzi z loňského roku, mezitím byl morfflex ještě dále opraven a vylepšen (a místy změněn).
     * **''​PseudoMorf''​**:​ výsledek po uplatnění našich změn. Jde především o      * **''​PseudoMorf''​**:​ výsledek po uplatnění našich změn. Jde především o 
Řádek 28: Řádek 35:
     * verbtagů: https://​wiki.korpus.cz/​doku.php/​cnk:​syn2020:​verbtag     * verbtagů: https://​wiki.korpus.cz/​doku.php/​cnk:​syn2020:​verbtag
   * Korpusy na adrese https://​www.korpus.cz/​kontext. Podle toho, jaký typ textu značkujete,​ zvolte korpus SYN2020 nebo nějaký starší.   * Korpusy na adrese https://​www.korpus.cz/​kontext. Podle toho, jaký typ textu značkujete,​ zvolte korpus SYN2020 nebo nějaký starší.
- 
-===== Cizí slova ===== 
- 
-U cizích slov vzniká problém, zda je tagovat jako **''​F%''​**,​ nebo jako česká slov. Řídíme se hlavně tím, zda je slovo už přejaté do češtiny, hlavně zdali se skloňuje. Postupujeme takto: 
- 
-  * Pokud se slovo v češtině nedá skloňovat, dostane značku **''​F%''​**. 
-  * Dá-li se skloňovat, dostane **''​NN''​**,​ i když je součástí víceslovného cizojazyčného názvu, např. //​Buffalo//​(**''​NN''​**) //​Sabres//​(**''​F%''​**);​ v tom případě je to 1. pád singuláru. 
-  * Je-li v nabídce u cizího slova **''​AA''​** (např. //New//) nebo jiný slovní druh, je to chybná nabídka; v takovém případě vybereme **''​F%''​**,​ nebo **''​invalid''​** (pokud **''​F%''​** chybí). 
- 
- 
  
  

QR Code
QR Code wiki:user:skoumal:tahaky:rucni-anotace (generated for current page)