Skript tagger.sh
slouží pro tagování českých korpusů v Korpusu
. Je umístěn v adresáři /cnk/common/tools/taggers/cs_<XXXX>
.
Ve skriptu je nastavena proměnná
VER_SYN2020=cs_<XXXX>
podle níž se nastavují další proměnné:
SYN2020_PREFIX=/cnk/common/tools/taggers/${VER_SYN2020}/syn2020
FRAZRL_PREFIX=/cnk/common/tools/taggers/${VER_SYN2020}
PATH=${SYN2020_PREFIX}/bin:${PATH}
a pomocné proměnné:
TMPPATH=/tmp/tagger_${VER_SYN2020}/
INFILE=$(mktemp ${TMPPATH}/XXXXXXXXXXXXXXXXXXXX.in)
INFNAME=$(basename ${INFILE})
FNAMEBASE=${INFNAME%.in}
LOG=${TMPPATH}/${FNAMEBASE}.log
CONFILE=${TMPPATH}/${FNAMEBASE}.con
MDITAIN=${TMPPATH}/${FNAMEBASE}.mdita.in
Nové verze se připravují na grimmovi
ze zmražených verzí. Příkaz k vytvoření nové verze je
make-ver-tagger.sh
který se spouští kdekoliv a není třeba být root
. Skript pracuje (natvrdo) v adresáři
/usr/local/syn2020/versions
a vyrobí soubor /usr/local/syn2020/UCNK_tagger/UCNK-tagger-<XXXX>.tar
. Seznam souborů, které mají být archivovány je v souboru /usr/local/syn2020/UCNK_tagger/necessary_files/necessary_files.txt
:
V archivu musí být aktuální verze skriptu tagger.sh
se správně nastavenou proměnnou VER_SYN2020
a správný soubor options.json.cnk
.
tagger.sh
:cd /usr/local/syn2020/bin/ rsync -avz trnka:/cnk/common/tools/taggers/cs_2021/tagger.sh .
VER_SYN2020
ve skriptu zařídí skript make-ver-syn2020.sh