Table of Contents

Skript tagger.sh

Skript tagger.sh slouží pro tagování českých korpusů v Korpusu. Je umístěn v adresáři /cnk/common/tools/taggers/cs_<XXXX>.

Proměnné prostředí

Ve skriptu je nastavena proměnná

podle níž se nastavují další proměnné:

a pomocné proměnné:

Správa verzí

Nové verze se připravují na grimmovi ze zmražených verzí. Příkaz k vytvoření nové verze je

make-ver-tagger.sh

který se spouští kdekoliv a není třeba být root. Skript pracuje (natvrdo) v adresáři

/usr/local/syn2020/versions

a vyrobí soubor /usr/local/syn2020/UCNK_tagger/UCNK-tagger-<XXXX>.tar. Seznam souborů, které mají být archivovány je v souboru /usr/local/syn2020/UCNK_tagger/necessary_files/necessary_files.txt:

Click to display ⇲

Click to hide ⇱

necessary_files.txt
FRAZRL/after_csts_new
FRAZRL/after_del_var_csts_new
FRAZRL/c4001a_dis_fraz_csts_new.x
FRAZRL/c4001a_dis_vetne_csts_new.x
FRAZRL/tabulka_csts_neslo_new
FRAZRL/tabulka_csts_neslvs_new
FRAZRL/tabulka_csts_prirovnani_new
FRAZRL/tabulka_csts_prislovi_new
FRAZRL/tabulka_csts_slov_new
FRAZRL/tabulka_csts_vetne_kolokace_new
syn2020/LEX_ucs2
syn2020/Perl/ChckTag.pm
syn2020/bin/add_structures.pl
syn2020/bin/add_sublemmas_and_space.pl
syn2020/bin/add_verbtag_and_clsep.pl
syn2020/bin/check-vert-tag-v2020.pl
syn2020/bin/clean_inutf8.pl
syn2020/bin/connect_disconnect.pl
syn2020/bin/convert_conllu_and_join.pl
syn2020/bin/convert_vert_for_MDita.pl
syn2020/bin/convert_vert_to_conllu.pl
syn2020/bin/correct_mdita.pl
syn2020/bin/correct_segmentation.pl
syn2020/bin/csts_vert_frazrl.pl
syn2020/bin/csts_vert_kolok.pl
syn2020/bin/decode_unicode.py
syn2020/bin/disconnect.pl
syn2020/bin/encode_unicode.py
syn2020/bin/final_corrections.pl
syn2020/bin/final_correct_segmentation.pl
syn2020/bin/help_tokenizer.pl
syn2020/bin/mark_modal.pl
syn2020/bin/negr_kolokace_vert_ucs2.pl
syn2020/bin/no_space_after_token_morphanal.pl
syn2020/bin/process_kolok.sh
syn2020/bin/process_text.sh
syn2020/bin/remove-dupl-vert-utf8.pl
syn2020/bin/remove_structures.pl
syn2020/bin/replace_sublemmas_with_lemmas.pl
syn2020/bin/resolve_aggregates.pl
syn2020/bin/restore_modal_csts.pl
syn2020/bin/run_frazrl.sh
syn2020/bin/run_morpho_analyze
syn2020/bin/run_tokenizer
syn2020/bin/simplify_and_convert.pl
syn2020/bin/tagger.sh
syn2020/bin/vert_csts_frazrl.pl
syn2020/bin/vert_csts_kolok.pl
syn2020/bin/gc_ucs2_release.x
syn2020/bin/gc_1byte_release.x
syn2020/bin/gc_ucs2_debug.x
syn2020/bin/gc_1byte_debug.x
syn2020/morphodita/czech-morfflex-pdt-c.dict
syn2020/morphodita-research/models/Current_Model/checkpoint
syn2020/morphodita-research/models/Current_Model/checkpoint-inference.data-00000-of-00001
syn2020/morphodita-research/models/Current_Model/checkpoint-inference.index
syn2020/morphodita-research/models/Current_Model/mappings.pickle
syn2020/morphodita-research/embeddings/SYNv7cswiki_lc.npz
syn2020/morphodita-research/morpho_dataset.py
syn2020/morphodita-research/morpho_tagger.py
syn2020/Seznamy

V archivu musí být aktuální verze skriptu tagger.sh se správně nastavenou proměnnou VER_SYN2020 a správný soubor options.json.cnk.

Instalace v KORPUSU