====== Skript tagger.sh ====== Skript ''tagger.sh'' slouží pro tagování českých korpusů v ''Korpusu''. Je umístěn v adresáři ''/cnk/common/tools/taggers/cs_''. ===== Proměnné prostředí ===== Ve skriptu je nastavena proměnná * ''VER_SYN2020=cs_'' podle níž se nastavují další proměnné: * ''SYN2020_PREFIX=/cnk/common/tools/taggers/${VER_SYN2020}/syn2020'' * ''FRAZRL_PREFIX=/cnk/common/tools/taggers/${VER_SYN2020}'' * ''PATH=${SYN2020_PREFIX}/bin:${PATH}'' a pomocné proměnné: * ''TMPPATH=/tmp/tagger_${VER_SYN2020}/'' * ''INFILE=$(mktemp ${TMPPATH}/XXXXXXXXXXXXXXXXXXXX.in)'' * ''INFNAME=$(basename ${INFILE})'' * ''FNAMEBASE=${INFNAME%.in}'' * ''LOG=${TMPPATH}/${FNAMEBASE}.log'' * ''CONFILE=${TMPPATH}/${FNAMEBASE}.con'' * ''MDITAIN=${TMPPATH}/${FNAMEBASE}.mdita.in'' ===== Správa verzí ===== Nové verze se připravují na ''grimmovi'' ze zmražených verzí. Příkaz k vytvoření nové verze jemake-ver-tagger.shkterý se spouští kdekoliv a není třeba být ''root''. Skript pracuje (natvrdo) v adresáři/usr/local/syn2020/versionsa vyrobí soubor ''/usr/local/syn2020/UCNK_tagger/UCNK-tagger-.tar''. Seznam souborů, které mají být archivovány je v souboru ''/usr/local/syn2020/UCNK_tagger/necessary_files/necessary_files.txt'': FRAZRL/after_csts_new FRAZRL/after_del_var_csts_new FRAZRL/c4001a_dis_fraz_csts_new.x FRAZRL/c4001a_dis_vetne_csts_new.x FRAZRL/tabulka_csts_neslo_new FRAZRL/tabulka_csts_neslvs_new FRAZRL/tabulka_csts_prirovnani_new FRAZRL/tabulka_csts_prislovi_new FRAZRL/tabulka_csts_slov_new FRAZRL/tabulka_csts_vetne_kolokace_new syn2020/LEX_ucs2 syn2020/Perl/ChckTag.pm syn2020/bin/add_structures.pl syn2020/bin/add_sublemmas_and_space.pl syn2020/bin/add_verbtag_and_clsep.pl syn2020/bin/check-vert-tag-v2020.pl syn2020/bin/clean_inutf8.pl syn2020/bin/connect_disconnect.pl syn2020/bin/convert_conllu_and_join.pl syn2020/bin/convert_vert_for_MDita.pl syn2020/bin/convert_vert_to_conllu.pl syn2020/bin/correct_mdita.pl syn2020/bin/correct_segmentation.pl syn2020/bin/csts_vert_frazrl.pl syn2020/bin/csts_vert_kolok.pl syn2020/bin/decode_unicode.py syn2020/bin/disconnect.pl syn2020/bin/encode_unicode.py syn2020/bin/final_corrections.pl syn2020/bin/final_correct_segmentation.pl syn2020/bin/help_tokenizer.pl syn2020/bin/mark_modal.pl syn2020/bin/negr_kolokace_vert_ucs2.pl syn2020/bin/no_space_after_token_morphanal.pl syn2020/bin/process_kolok.sh syn2020/bin/process_text.sh syn2020/bin/remove-dupl-vert-utf8.pl syn2020/bin/remove_structures.pl syn2020/bin/replace_sublemmas_with_lemmas.pl syn2020/bin/resolve_aggregates.pl syn2020/bin/restore_modal_csts.pl syn2020/bin/run_frazrl.sh syn2020/bin/run_morpho_analyze syn2020/bin/run_tokenizer syn2020/bin/simplify_and_convert.pl syn2020/bin/tagger.sh syn2020/bin/vert_csts_frazrl.pl syn2020/bin/vert_csts_kolok.pl syn2020/bin/gc_ucs2_release.x syn2020/bin/gc_1byte_release.x syn2020/bin/gc_ucs2_debug.x syn2020/bin/gc_1byte_debug.x syn2020/morphodita/czech-morfflex-pdt-c.dict syn2020/morphodita-research/models/Current_Model/checkpoint syn2020/morphodita-research/models/Current_Model/checkpoint-inference.data-00000-of-00001 syn2020/morphodita-research/models/Current_Model/checkpoint-inference.index syn2020/morphodita-research/models/Current_Model/mappings.pickle syn2020/morphodita-research/embeddings/SYNv7cswiki_lc.npz syn2020/morphodita-research/morpho_dataset.py syn2020/morphodita-research/morpho_tagger.py syn2020/Seznamy V archivu musí být aktuální verze skriptu ''tagger.sh'' se správně nastavenou proměnnou ''VER_SYN2020'' a správný soubor ''options.json.cnk''. * ''tagger.sh'':cd /usr/local/syn2020/bin/ rsync -avz trnka:/cnk/common/tools/taggers/cs_2021/tagger.sh . * nastavení proměnné ''VER_SYN2020'' ve skriptu zařídí skript ''make-ver-syn2020.sh'' ===== Instalace v KORPUSU =====