Wiki spuštěna 24. 7. 2025

Skript tagger.sh

Skript tagger.sh slouží pro tagování českých korpusů v Korpusu. Je umístěn v adresáři /cnk/common/tools/taggers/cs_<XXXX>.

Proměnné prostředí

Ve skriptu je nastavena proměnná

  • VER_SYN2020=cs_<XXXX>

podle níž se nastavují další proměnné:

  • SYN2020_PREFIX=/cnk/common/tools/taggers/${VER_SYN2020}/syn2020
  • FRAZRL_PREFIX=/cnk/common/tools/taggers/${VER_SYN2020}
  • PATH=${SYN2020_PREFIX}/bin:${PATH}

a pomocné proměnné:

  • TMPPATH=/tmp/tagger_${VER_SYN2020}/
  • INFILE=$(mktemp ${TMPPATH}/XXXXXXXXXXXXXXXXXXXX.in)
  • INFNAME=$(basename ${INFILE})
  • FNAMEBASE=${INFNAME%.in}
  • LOG=${TMPPATH}/${FNAMEBASE}.log
  • CONFILE=${TMPPATH}/${FNAMEBASE}.con
  • MDITAIN=${TMPPATH}/${FNAMEBASE}.mdita.in

Správa verzí

Nové verze se připravují na grimmovi ze zmražených verzí. Příkaz k vytvoření nové verze je

make-ver-tagger.sh

který se spouští kdekoliv a není třeba být root. Skript pracuje (natvrdo) v adresáři

/usr/local/syn2020/versions

a vyrobí soubor /usr/local/syn2020/UCNK_tagger/UCNK-tagger-<XXXX>.tar. Seznam souborů, které mají být archivovány je v souboru /usr/local/syn2020/UCNK_tagger/necessary_files/necessary_files.txt:

Click to display ⇲

Click to hide ⇱

necessary_files.txt
FRAZRL/after_csts_new
FRAZRL/after_del_var_csts_new
FRAZRL/c4001a_dis_fraz_csts_new.x
FRAZRL/c4001a_dis_vetne_csts_new.x
FRAZRL/tabulka_csts_neslo_new
FRAZRL/tabulka_csts_neslvs_new
FRAZRL/tabulka_csts_prirovnani_new
FRAZRL/tabulka_csts_prislovi_new
FRAZRL/tabulka_csts_slov_new
FRAZRL/tabulka_csts_vetne_kolokace_new
syn2020/LEX_ucs2
syn2020/Perl/ChckTag.pm
syn2020/bin/add_structures.pl
syn2020/bin/add_sublemmas_and_space.pl
syn2020/bin/add_verbtag_and_clsep.pl
syn2020/bin/check-vert-tag-v2020.pl
syn2020/bin/clean_inutf8.pl
syn2020/bin/connect_disconnect.pl
syn2020/bin/convert_conllu_and_join.pl
syn2020/bin/convert_vert_for_MDita.pl
syn2020/bin/convert_vert_to_conllu.pl
syn2020/bin/correct_mdita.pl
syn2020/bin/correct_segmentation.pl
syn2020/bin/csts_vert_frazrl.pl
syn2020/bin/csts_vert_kolok.pl
syn2020/bin/decode_unicode.py
syn2020/bin/disconnect.pl
syn2020/bin/encode_unicode.py
syn2020/bin/final_corrections.pl
syn2020/bin/final_correct_segmentation.pl
syn2020/bin/help_tokenizer.pl
syn2020/bin/mark_modal.pl
syn2020/bin/negr_kolokace_vert_ucs2.pl
syn2020/bin/no_space_after_token_morphanal.pl
syn2020/bin/process_kolok.sh
syn2020/bin/process_text.sh
syn2020/bin/remove-dupl-vert-utf8.pl
syn2020/bin/remove_structures.pl
syn2020/bin/replace_sublemmas_with_lemmas.pl
syn2020/bin/resolve_aggregates.pl
syn2020/bin/restore_modal_csts.pl
syn2020/bin/run_frazrl.sh
syn2020/bin/run_morpho_analyze
syn2020/bin/run_tokenizer
syn2020/bin/simplify_and_convert.pl
syn2020/bin/tagger.sh
syn2020/bin/vert_csts_frazrl.pl
syn2020/bin/vert_csts_kolok.pl
syn2020/bin/gc_ucs2_release.x
syn2020/bin/gc_1byte_release.x
syn2020/bin/gc_ucs2_debug.x
syn2020/bin/gc_1byte_debug.x
syn2020/morphodita/czech-morfflex-pdt-c.dict
syn2020/morphodita-research/models/Current_Model/checkpoint
syn2020/morphodita-research/models/Current_Model/checkpoint-inference.data-00000-of-00001
syn2020/morphodita-research/models/Current_Model/checkpoint-inference.index
syn2020/morphodita-research/models/Current_Model/mappings.pickle
syn2020/morphodita-research/embeddings/SYNv7cswiki_lc.npz
syn2020/morphodita-research/morpho_dataset.py
syn2020/morphodita-research/morpho_tagger.py
syn2020/Seznamy

V archivu musí být aktuální verze skriptu tagger.sh se správně nastavenou proměnnou VER_SYN2020 a správný soubor options.json.cnk.

  • tagger.sh:
    cd /usr/local/syn2020/bin/
    rsync -avz trnka:/cnk/common/tools/taggers/cs_2021/tagger.sh .
  • nastavení proměnné VER_SYN2020 ve skriptu zařídí skript make-ver-syn2020.sh

Instalace v KORPUSU


QR Code
QR Code wiki:user:skoumal:infra:tagger (generated for current page)