Table of Contents
Negramatické kolokace
- Sousloví, která mají jednoznačnou interpretaci, ale jejich součásti jsou víceznačné, nebo cizí slova.
- Jsou v souboru
…/langr/rules/src/kolokaceGC.win
. Jsou v kódováníCP1250
a jsou seřazené opačně (aby se delší sousloví vzala dřív než kratší). - Při prvním volání pravidel se otagují jako
Db-------------
. - Po taggeru se opraví lemmata i tagy programem
negr_kolokace_csts_ucs2.pl
Změny při zpracování SYN2020
- Při prvním volání pravidel se otagují jako
D?-------------
. - Při převádění lemmat a tagů
D?
na správné se pracuje s vertikálou.
Výroba a úpravy souboru kolokaceGC.win
- V adresáři
/usr/local/syn2020/Seznamy
jsou soubory:- SeznamKolokace-Latina2.tsv — dvojslovné latinské výrazy
- SeznamKolokace-Latina3.tsv — trojslovné latinské výrazy
- SeznamKolokace-Rest.tsv — kolokace nespadající do žádné z kategorií
- SeznamKolokace-RokFem.tsv — typ hodinu co hodinu
- SeznamKolokace-RokInan.tsv — typ rok co rok
- SeznamKolokace-RokNeut.tsv — typ ráno co ráno
- SeznamKolokace-RokPomnFem.tsv — typ prázdniny co prázdniny
- SeznamKolokace-RokPomnInan.tsv — typ závody co závody
- Adresář pro výrobu souboru
kolokaceGC.win
je/home/skoumal/PROJEKTY/INFRASTRUKTURA/LanGR/negr_kolokace
- Program
create_negr_kolokace.pl
umístěný v podadresářibin
vytvoří ze seznamů soubordata/kolokaceGC21.utf8
, který se sesortí opačně a převede doCP1250
příkazemsort -r kolokaceGC21.utf8 | recode u8..CP1250 > kolokaceGC21.rev-sort.win
- Tento soubor se umístí na stroji
langr.korpus.cz
do adresáře/usr/local/langr/src
:rsync -avz kolokaceGC21.rev-sort.win langr:/usr/local/langr/src/
a udělá se link na
kolokaceGC.win
- Program
create_negr_kolokace.pl
zároveň v podadresářiin-utf8
vytvoří souborynegr_kolokace_latin.txt
,negr_kolokace_rest.txt
anegr_kolokace_rok_co_rok.txt
, které slouží ke kontrole správnosti.
Program negr_kolokace_vert_ucs2.pl
- Nachází se v adresáři
/usr/local/syn2020/bin
. - Pracuje s týmiž seznamy jako
create_negr_kolokace.pl
. - Kolokace uvedené v seznamu
SeznamKolokace-Rest.tsv
musí mít ručně napsaná pravidla.