Slouží k batchovému paralelizovanému zpracování textů pro korpusy SYN
od verze SYN2020
.
/usr/local/syn2020
~milena/FRAZRL
~milena/FRANTA
/usr/local/syn2020/Perl
SYN2020_PREFIX
VER_SYN2020
/usr/local/syn2020/versions
Různé kusy SW nutné pro běh process_text.sh
se vyrábějí na různých strojích:
LEX_ucs2
na langr.korpus.cz
gc_ucs2_debug.x
a gc_ucs2_release.x
na langr.korpus.cz
process_text.sh
na grimm.ff.cuni.cz
chomsky.ff.cuni.cz
LEX
:cd /data/syn2020 sort -u Tagy-merged.tsv DoplnTagy-220616.txt | grep . > qqq.tsv; mv qqq.tsv Tagy-merged.tsv cp -p Tagy-merged.tsv /net/grimm/usr/local/langr/rules/src/ourtags.txt rsync -avz Tagy-merged.tsv langr:/usr/local/langr/src/ourtags.txt
langr.korpus.cz
se pustí kompilace (přes webové rozhraní).grimm
se pustícd /usr/local/syn2020 rsync -avz langr:/cnk/local/ssd/langr/linguists/tmp/hanka/LEX_ucs2 . chmod o+r LEX_ucs2
Na chomského
a jakobsona
se pak LEX
zkopíruje z grimma
.
process_text.sh
se musí kopírovat na chomsky.ff.cuni.cz
a jakobson.ff.cuni.cz
:cd /usr/local/syn2020/bin rsync -avz process_text.sh /net/chomsky/usr/local/syn2020/bin/ rsync -avz process_text.sh /net/jakobson/usr/local/syn2020/bin/
a dále na sag.korpus.cz
a lovelace.korpus.cz
. Na tyto dva stroje je to lepší pomocí verzí (viz níže).
/usr/local/syn2020/Pseudomorfologie
se vyrábí soubor Errors.tsv
, podle kterého bychom měli zkontrolovat tagy.lovelace/langr/trnka/sag
a musí se odtud zkopírovat na grimma
:/cnk/work/lovelace/embeddings
. Aktuální verze:4730938446 Mar 13 18:30 SYNv7cswiki_lc2.5.300limited1.5M.npz
/cnk/local/ssd/lovelace/morphodita-research/embeddings
a jmenuje se SYNv7cswiki_lc.npz
. Na grimmovi provedeme:cd /usr/local/syn2020/morphodita-research/embeddings rsync -avz love:/cnk/local/ssd/lovelace/morphodita-research/embeddings/SYNv7cswiki_lc.npz .
/cnk/work/lovelace/MorphoditaModels
, např. Model_0622_ALL
. Provedeme:cd ../models rsync -avz love:/cnk/work/lovelace/MorphoditaModels/Model_0622_ALL .
(jméno modelu se může měnit).
cp -p Current_Model/options.json.grimm Model_0622_ALL rm Current_Model ln -s Model_0622_ALL Current_Model cd Current_Model cp -p options.json options.json.love cp -p options.json.grimm options.json
sudo bash -l make-ver-syn2020.sh
Je třeba zkontrolovat, zda soubory option.json.*
mají správné adresáře pro embeddings.
ssh love cd /cnk/local/ssd/lovelace/versions # rsync -avz grimm:/usr/local/syn2020/versions/<verze> . rsync -avz grimm:/work/usr-local/syn2020/versions/<verze> .
Číslo verze se mění. Došlo-li ke změně verze, opravíme link latest
:
rm latest ln -s <verze> latest
Dále opravíme proměnnou VER_SYN2020
ve skriptu .versyn2020.rc
, aby obsahovala aktuální hodnotu, a vyměníme soubor options.json
:
cd latest/syn2020/morphodita-research/models/Current_Model cp -p options.json.love options.json
chomském
a jakobsonovi
aktualizujeme takto:cd /usr/local sudo rsync -avz --exclude 'versions' --exclude "*~" --exclude 'Pseudomorfologie' --exclude 'UCNK_tagger' /net/grimm/usr/local/syn2020 . ssh jakobson cd /usr/local sudo rsync -avz --exclude 'versions' --exclude "*~" --exclude 'Pseudomorfologie' --exclude 'UCNK_tagger' --exclude "arch-syn2020*" grimm:/cnk/common/tools/taggers/cs_DEV/syn2020 .
chomském
a jakobsonovi
:sudo bash -l cd /usr/local/syn2020/versions/necessary_files rsync -avz /net/grimm/usr/local/syn2020/versions/necessary_files/*-202206 . make-ver-syn2020.sh