Generování našich tagů z JH
- Vychází se ze souboru
morfflex-cz.2016-11-15.utf8.lemmaID_suff-tag-form.tab.csv
, který je přístupný na Lindatu. - Příprava vstupu:
morfflex-cz.2016-11-15.utf8.1
morfflex-cz.2016-11-15.utf8.2
morfflex-cz.2016-11-15.utf8.3
- Znovu poskládat do naší vertikály a nasekat po 100.000 slovech:
paste morfflex.3 morfflex.1 | paste -d' ' - morfflex.2 > morfflex cd vert-JH split -a3 -l50000 ../morfflex
- Převést do
csts
(csts-JH
) - Převést na tagy bez proměnných:
screen parallel-filter.sh -C "JH-wide.sh | single-tag-csts.pl | perl -pe 's/<f>/<f src=\"T\">/'" -e -p45 -s csts-JH -t csts-tag -v
- Provést ovidování a závěrečné opravy:
ln -s csts-tag csts-rules-frazrl-rules1-rulh1-tag screen make-whole-corp-csts.sh -Eucs2 -M -p45 -tvid -v
- Zkontrolovat výsledek:
for ff in *; do echo $ff; tail $ff | check-csts.pl 16; done | grep -B1 "Incorrect" parallel-filter.sh -C "check-csts.pl 16" -p45 -s csts-rules-frazrl-rules1-rulh1-tag-vid-corr
- Převést do vertikály
- Setřídit a vyházet duplikáty:
screen parallel-filter.sh -C "sort -u | tr ' ' '\t' " -e -p45 -s vert-rules-frazrl-rules1-rulh1-tag-vid-corr -t vert-final -v
- Zkontrolovat výsledek:
screen parallel-filter.sh -C check-tag-vert-tab.pl -e -s vert-final -t vert-wrong-tag -p45 -v