Wiki spuštěna 24. 7. 2025

Kombinování stochastických a pravidlových taggerů

Extrakce POS ze tří taggerů

  • vytvořit vertikály od všech taggerů: vert-morf-tag, vert-HMM a vert-tagjh
  • v adresáři POS vytvořit sloupce s POS (v případě SUBPOS použít cut -b1-2):
    $ cd vert-morf-tag
    $ for ff in *; do cut -f2 -d" " $ff | cut -b1 > ../POS/morce-$ff; done
    $ cd ../vert-tagjh
    $ for ff in *; do cut -f2 -d" " $ff | cut -b1 > ../POS/tagjh-$ff; done
    $ cd ../vert-HMM
    $ for ff in *; do cut -f2 -d" " $ff | cut -b1 > ../POS/HMM-$ff; done
  • postupně mergeovat výstupy ze dvou taggerů:
    $ cd POS
    $ for ff in HMM-*; do paste $ff tagjh${ff#HMM} | diff-POS.sh > tagjh-$ff; done
    $ for ff in tagjh-HMM-*; do paste $ff morce${ff#tagjh-HMM} | diff-POS.sh > morce-$ff; done
  • v adresáři POS-morf vytvořit morfologické soubory s informací o POS:
    $ cd vert-morf
    $ for ff in *; do paste ../POS/morce-tagjh-HMM-$ff <(odlep-tecky.sh < $ff) > ../POS-morf/$ff; done
  • vytvořit nové morfologické soubory ve vert-morfPOS:
    $ cd POS-morf
    $ for ff in *; do filter-POS.pl < $ff > ../vert-morfPOS/$ff; done
  • pokračovat klasicky od rules až po tag

Měření recallu

  • provést desambiguaci k určitému kroku (morf, rules, frazrl, rulh1), případně odfiltrovat tagy podle POS nebo SUBPOS
  • pokračovat podle porovnani_mnoha_tagu_ze_2_zdroju, nalevo je PDT-postmorfo

QR Code
QR Code wiki:user:skoumal:taggers (generated for current page)