====== Kombinování stochastických a pravidlových taggerů ====== ===== Extrakce POS ze tří taggerů ===== * vytvořit vertikály od všech taggerů: ''vert-morf-tag'', ''vert-HMM'' a ''vert-tagjh'' * v adresáři ''POS'' vytvořit sloupce s ''POS'' (v případě ''SUBPOS'' použít ''cut -b1-2''):$ cd vert-morf-tag $ for ff in *; do cut -f2 -d" " $ff | cut -b1 > ../POS/morce-$ff; done $ cd ../vert-tagjh $ for ff in *; do cut -f2 -d" " $ff | cut -b1 > ../POS/tagjh-$ff; done $ cd ../vert-HMM $ for ff in *; do cut -f2 -d" " $ff | cut -b1 > ../POS/HMM-$ff; done * postupně mergeovat výstupy ze dvou taggerů:$ cd POS $ for ff in HMM-*; do paste $ff tagjh${ff#HMM} | diff-POS.sh > tagjh-$ff; done $ for ff in tagjh-HMM-*; do paste $ff morce${ff#tagjh-HMM} | diff-POS.sh > morce-$ff; done * v adresáři ''POS-morf'' vytvořit morfologické soubory s informací o POS:$ cd vert-morf $ for ff in *; do paste ../POS/morce-tagjh-HMM-$ff <(odlep-tecky.sh < $ff) > ../POS-morf/$ff; done * vytvořit nové morfologické soubory ve ''vert-morfPOS'':$ cd POS-morf $ for ff in *; do filter-POS.pl < $ff > ../vert-morfPOS/$ff; done * pokračovat klasicky od ''rules'' až po ''tag'' ===== Měření recallu ===== * provést desambiguaci k určitému kroku (''morf'', ''rules'', ''frazrl'', ''rulh1''), případně odfiltrovat tagy podle ''POS'' nebo ''SUBPOS'' * pokračovat podle [[wiki:user:skoumal:compare#porovnani_mnoha_tagu_ze_2_zdroju|]], nalevo je ''PDT-postmorfo''