Toto je starší verze dokumentu!
Ruční anotace korpusů - návody a taháky
Nápovědy se liší podle typu anotovaného korpusu. V zásadě anotujeme tři typy korpusů:
- Korpusy řady SYN podle nového značkování (typ SYN2020).
Kromě návodů pro jednotlivé typy korpusů, je zde soupis nástrojů a pomůcek, které můžete při anotaci využít.
Pomůcky a nástroje
Někdy je nabídka při anotaci omezena programem nebo předchozí anotací a my si nejsme jisti, zda si máme vybrat z předložené nabídky, nebo volbu označit jako invalid. Můžeme tedy nabídku zjistit ve webové aplikaci. Také se můžeme podívat do publikovaných korpusů, abychom si ověřili, jak se určité slovo obvykle značkuje. Někdy jsou ale v korpusu chyby - přednost má to, co je napsané v příslušném taháku. Zde je přehled pomůcek a nástrojů, které můžeme použít:
- Morfologická nabídka pro SYN2020: http://utkl.ff.cuni.cz/morfflex.php. Do vstupního políčka můžete zadat několik slov, přičemž v některých případech je výsledek závislý na kontextu. Zpracování bohužel trvá asi 15 vteřin, tak mějte trpělivost.
Aplikace nabízí 4 různá zobrazení výsledku, přičemž napoprvé se zobrazí výsledekLanGR
. Ten se hodí, pokud potřebujete pracovat s verbtagy, jinak pro vás bude lepší výsledekLemmata
:Morfflex
: výsledek ze slovníku morfflex vytvořeného na MFF. Jde o verzi z loňského roku, mezitím byl morfflex ještě dále opraven a vylepšen (a místy změněn).PseudoMorf
: výsledek po uplatnění našich změn. Jde především o- doplnění neznámých slovíček
- změnu tagu podle našich zásad
- odstranění přebytečných interpretací
- změnu lemmatu na sublemma
Lemmata
: sublemmata jsou nahrazena lemmatyLanGR
: takto slova vstupují do programu LanGR, který pomocí lingvistických pravidel provádí desambiguaci; tagy jsou rozšířeny o verbtagy a nakonec jsou ještě připojeny dvě pozice, které jsou využívány programem LanGR a posléze smazány.
- Popis nové koncepce značkování na wiki ČNK: https://wiki.korpus.cz/doku.php/cnk:syn2020, anebo konkrétně popis
- morfologických značek: https://wiki.korpus.cz/doku.php/cnk:syn2020:tag
- Korpusy na adrese https://www.korpus.cz/kontext. Podle toho, jaký typ textu značkujete, zvolte korpus SYN2020 nebo nějaký starší.