Wiki spuštěna 24. 7. 2025

Tagování českých textů v InterCorpu

Texty pro tagování dostáváme v XML, ve kterém je už provedena segmentace. Segmentace se nesmí změnit. Toho docílíme tak, že nově provedenou segmentaci zahodíme a pomocí Vondřičkových skriptů vrátíme původní.

  • Extrakce holého textu a zachování segmentace:
    /cnk/common/tools/xml2standoff/xml2standoff.py Pagnol-Jak_voni_tymian.cs-00.xml
    perl -i.bak -pe 's/"s"/"sent"/' Pagnol-Jak_voni_tymian.cs-00.json
  • Tagování:
    /cnk/common/tools/taggers/cs_2023/tagger-debug.sh < Pagnol-Jak_voni_tymian.cs-00.txt > Pagnol-Jak_voni_tymian.cs-00.vrt
  • Kontrola výsledku. Musí být nastaveno SYN2020_PREFIX=/cnk/common/tools/taggers/cs_2023/syn2020, ale to zajistím ve skriptu:
    export SYN2020_PREFIX=/cnk/common/tools/taggers/cs_2023/syn2020
    (/cnk/common/tools/taggers/cs_2023/syn2020/bin/check-vert-tag-v2020.pl -c5 -t -V < Pagnol-Jak_voni_tymian.cs-00.vrt > /dev/null) |& wc -l
  • Převod do XML:
    /cnk/common/tools/xml2standoff/vrt2standoff.py -v cnk2020 Pagnol-Jak_voni_tymian.cs-00.vrt
    /cnk/common/tools/xml2standoff/standoff2xml.py Pagnol-Jak_voni_tymian.cs-00.txt
    perl -i -pe 's:</?s>::g' Pagnol-Jak_voni_tymian.cs-00.merged.xml
    perl -i -pe 's:(</?)sent:$1s:g' Pagnol-Jak_voni_tymian.cs-00.merged.xml
  • Kontrola segmentace:
    /cnk/common/tools/taggers/cs_2023/syn2020/bin/del_words.pl < Pagnol-Jak_voni_tymian.cs-00.merged.json > Pagnol-Jak_voni_tymian.cs-00.merged.del.json
    diff -q Pagnol-Jak_voni_tymian.cs-00.json.bak Pagnol-Jak_voni_tymian.cs-00.merged.del.json >/dev/null
    echo $?

QR Code
QR Code wiki:user:skoumal:intercorp:tagging (generated for current page)