Tagování českých textů v InterCorpu
Texty pro tagování dostáváme v XML
, ve kterém je už provedena segmentace. Segmentace se nesmí změnit. Toho docílíme tak, že nově provedenou segmentaci zahodíme a pomocí Vondřičkových skriptů vrátíme původní.
- Extrakce holého textu a zachování segmentace:
/cnk/common/tools/xml2standoff/xml2standoff.py Pagnol-Jak_voni_tymian.cs-00.xml perl -i.bak -pe 's/"s"/"sent"/' Pagnol-Jak_voni_tymian.cs-00.json
- Tagování:
/cnk/common/tools/taggers/cs_2023/tagger-debug.sh < Pagnol-Jak_voni_tymian.cs-00.txt > Pagnol-Jak_voni_tymian.cs-00.vrt
- Kontrola výsledku. Musí být nastaveno
SYN2020_PREFIX=/cnk/common/tools/taggers/cs_2023/syn2020
, ale to zajistím ve skriptu:export SYN2020_PREFIX=/cnk/common/tools/taggers/cs_2023/syn2020 (/cnk/common/tools/taggers/cs_2023/syn2020/bin/check-vert-tag-v2020.pl -c5 -t -V < Pagnol-Jak_voni_tymian.cs-00.vrt > /dev/null) |& wc -l
- Převod do
XML
:/cnk/common/tools/xml2standoff/vrt2standoff.py -v cnk2020 Pagnol-Jak_voni_tymian.cs-00.vrt /cnk/common/tools/xml2standoff/standoff2xml.py Pagnol-Jak_voni_tymian.cs-00.txt perl -i -pe 's:</?s>::g' Pagnol-Jak_voni_tymian.cs-00.merged.xml perl -i -pe 's:(</?)sent:$1s:g' Pagnol-Jak_voni_tymian.cs-00.merged.xml
- Kontrola segmentace:
/cnk/common/tools/taggers/cs_2023/syn2020/bin/del_words.pl < Pagnol-Jak_voni_tymian.cs-00.merged.json > Pagnol-Jak_voni_tymian.cs-00.merged.del.json diff -q Pagnol-Jak_voni_tymian.cs-00.json.bak Pagnol-Jak_voni_tymian.cs-00.merged.del.json >/dev/null echo $?