…/langr/rules/src/kolokaceGC.win
. Jsou v kódování CP1250
a jsou seřazené opačně (aby se delší sousloví vzala dřív než kratší).Db-------------
.negr_kolokace_csts_ucs2.pl
D?-------------
.D?
na správné se pracuje s vertikálou./usr/local/syn2020/Seznamy
jsou soubory:kolokaceGC.win
je /home/skoumal/PROJEKTY/INFRASTRUKTURA/LanGR/negr_kolokace
create_negr_kolokace.pl
umístěný v podadresáři bin
vytvoří ze seznamů soubor data/kolokaceGC21.utf8
, který se sesortí opačně a převede do CP1250
příkazemsort -r kolokaceGC21.utf8 | recode u8..CP1250 > kolokaceGC21.rev-sort.win
langr.korpus.cz
do adresáře /usr/local/langr/src
:rsync -avz kolokaceGC21.rev-sort.win langr:/usr/local/langr/src/
a udělá se link na kolokaceGC.win
create_negr_kolokace.pl
zároveň v podadresáři in-utf8
vytvoří soubory negr_kolokace_latin.txt
, negr_kolokace_rest.txt
a negr_kolokace_rok_co_rok.txt
, které slouží ke kontrole správnosti./usr/local/syn2020/bin
.create_negr_kolokace.pl
.SeznamKolokace-Rest.tsv
musí mít ručně napsaná pravidla.