Nápověda k aplikaci desamb
V současné době umí aplikace tyto akce:
- Morfologickou analýzu
- Závislostní parsing
Nástroje, které jsou při nich použity, jsou sepsány v oddíle
Nástroje a autoři.
Ovládání
Do políčka Vstupní text napíšeme větu, kterou chceme
zpracovat. Pokud stiskneme tlačítko Desamb, provede se
desambiguace (stejně jako doposud).
Pokud po zadání věty stiskneme tlačítko Parse, provede se
nejdřív desambiguace a hned vzápětí parsing. Tlačítko Parse ale
můžeme stisknout i po samostatně provedené desambiguaci — v tom
případě se provede parsing naposledy desambiguované věty.
Morfolgická analýza používá poslední "frozen" verzi našich
nástrojů. V současné době je to verze 201910, kterou byl anotován
korpus SYNv8. Uživatel může použít aktuální ("živou") verzi nástrojů,
pokud ve formuláři zaškrtne příslušné políčko:
- Znovu naládovat LEX_ucs2:
- jméno lingvisty — naláduje se poslední verze, kterou si
dotyčný zkompiloval
- LEX_ucs2 — naláduje se verze z /usr/local/corp
- Znovu naládovat:
- frazémy — nejnovější Milenina verze; používá se v kroku frazrl
- negr_kolokace — nejnovější verze z /usr/local/corp/bin
- premorfo, postmorfo, postdesambvid — nejnovější verze
z /usr/local/corp/DisambiguacniSkripty
- Reset — znovu naláduje všechny nástroje z "frozen" stavu.
Jako výsledek desambiguace se vypíše vertikála, ve které je vyznačeno
(v posledním sloupci) i to, který modul provedl poslední krok:
- M: morfologie
- 0: první kolo pravidel
- F: frazémy
- 1: druhé kolo pravidel
- h: heuristika
- T: tagger (featurama)
- H: závěrečné skripty (postdisambvid)
Kromě toho jsou interpunkční znaménka označena písmenem
D.
V pravém sloupci je pak možné prohlížet si výsledky
jednotlivých kroků — po kliknutí na název kroku se rozbalí/sbalí
jeho výsledky.
Pro závislostní parsing se používá TurboParser natrénovaný Tomášem
Jelínkem. Protože je TurboParser napsaný jako batchová aplikace, je
jeho spouštění na jednotlivé věty dost pomalé. Je ale možné, že
v budoucnu přejdeme na parser z UD-pipe, který by měl být
rychlejší a pro jednotlivé věty vhodnější.
Jako výsledek parsingu se zobrazí strom(y) s analýzou. Po
kliknutí na uzel stromu se zobrazí podrobnější informace o uzlu, ale
snažila jsem se o to, aby informace obsažená přímo ve stromě byla
dostatečně informativní. Přímo ve stromě jsou tyto informace:
- forma slova, jak se vyskytla ve větě (včetně malého/velkého
počátečního písmene)
- afun — analytická funkce, jakou uzlu přiřadil parser
- tag ve zkráceném tvaru: tag je zkrácen na pět pozic a
potom jsou ještě zprava odstraněny pomlčky; u finitních tvarů sloves je
pak přidána pomlčka a osoba (takže osoba se nachází na 6. pozici
v tagu); např.
- NNFS1
- Db
- RR--4
- VpFS-3
- VB-P-1
- Vf
Po kliknutí je možné si prohlédnout i strom zapsaný ve vertikále. V
zápisu jsou pro závislosti použita absolutní čísla uzlů.
V aplikaci byly použity nástroje, které používáme pro
značkování korpusů Českého národního
korpusu SYN.
Desambiguace
- Pro morfologickou analýzu používáme slovník morfflex ve verzi
z října 2018. Hlavní autoři jsou Jan Hajič a Jaroslava
Hlaváčová.
- Pravidlová desambiguace je prováděna systémem LanGR od
Pavla Květoně. Lingvistická pravidla jsou dílem Vladimíra
Petkeviče, Tomáše Jelínka a Mileny Hnátkové.
- Mezi prvním a druhým spuštěním lingvistických pravidel se
využívá modul frazrl od Mileny Hnátkové, který identifikuje a
desambiguuje frazémy.
- Zbylé víceznačnosti rozhodne stochastický tagger featurama od Miroslava Spousty.
- Pro přípravu textu, opravy morfologie a závěrečné
ad hoc opravy se používají různé skripty od Tomáše Jelínka,
Mileny Hnátkové a Hany Skoumalové.
- Pro přidání vidů se používá skript od Miroslava Spousty.
Závislostní parsing
- Pro parsing používáme TurboParser
od André Martinse natrénovaný Tomášem Jelínkem na náš
tagset.
- Pro zobrazení závislostního stromu využíváme javascriptovou
knihovnu js-treex-view od Michala Sedláka a Martina
Popela.
Webová aplikace
Webovou aplikaci sepsala Hana Skoumalová.
Literatura
Odkazy
Poslední úprava: 11. 02. 2020 21:28