Table of Contents
Kombinování stochastických a pravidlových taggerů
Extrakce POS ze tří taggerů
- vytvořit vertikály od všech taggerů:
vert-morf-tag
,vert-HMM
avert-tagjh
- v adresáři
POS
vytvořit sloupce sPOS
(v případěSUBPOS
použítcut -b1-2
):$ cd vert-morf-tag $ for ff in *; do cut -f2 -d" " $ff | cut -b1 > ../POS/morce-$ff; done $ cd ../vert-tagjh $ for ff in *; do cut -f2 -d" " $ff | cut -b1 > ../POS/tagjh-$ff; done $ cd ../vert-HMM $ for ff in *; do cut -f2 -d" " $ff | cut -b1 > ../POS/HMM-$ff; done
- postupně mergeovat výstupy ze dvou taggerů:
$ cd POS $ for ff in HMM-*; do paste $ff tagjh${ff#HMM} | diff-POS.sh > tagjh-$ff; done $ for ff in tagjh-HMM-*; do paste $ff morce${ff#tagjh-HMM} | diff-POS.sh > morce-$ff; done
- v adresáři
POS-morf
vytvořit morfologické soubory s informací o POS:$ cd vert-morf $ for ff in *; do paste ../POS/morce-tagjh-HMM-$ff <(odlep-tecky.sh < $ff) > ../POS-morf/$ff; done
- vytvořit nové morfologické soubory ve
vert-morfPOS
:$ cd POS-morf $ for ff in *; do filter-POS.pl < $ff > ../vert-morfPOS/$ff; done
- pokračovat klasicky od
rules
až potag
Měření recallu
- provést desambiguaci k určitému kroku (
morf
,rules
,frazrl
,rulh1
), případně odfiltrovat tagy podlePOS
neboSUBPOS
- pokračovat podle porovnani_mnoha_tagu_ze_2_zdroju, nalevo je
PDT-postmorfo