Etalon z PDT
- Připraví se 2 druhy vertikály se zjednodušenými tagy:
- projetá pravidly + roznásobené tagy
- jenom roznásobené tagy
- Tagy jsou zjednodušené tímto způsobem (viz
simplify-tags.pl
):- P6 a P7 (refl. zájmena) nemají určené číslo
- Vp, Vq a Vs (participia) nerozlišují osobu
- Vs (pasivní participia) nerozlišují čas
- Vc (kondicionál) ve třetí osobě nerozlišuje číslo
- všechna čísla psaná číslicemi nebo římskými číslicemi mají tag
C=
- P1 a PS (zájmena jeho a jehož) nerozlišují rod posesora
- VB (finitní tvary sloves) nemají X u osoby a čísla (týkalo se cizích slov)
- Příprava vertikály:
- od Tomáše dostanu “jednoznačnou” vertikálu s tabulátorem před tagem
- rozhodím pomocí cut do tří sloupců:
mkdir first mkdir second mkdir third for ff in *.vert; do echo $ff; cut -f1 $ff > first/$ff;done for ff in *.vert; do echo $ff; cut -f2 $ff > second/$ff;done for ff in *.vert; do echo $ff; cut -f3 $ff > third/$ff;done
- u
second
odstraním ocásky:cd second for ff in *.vert; do echo $ff; perl -i -pe 's/(.)-_`.*/$1/' $ff; done
- vše zase slepím do “naší” vertikály:
cd .. mkdir -p prac/vert-morf cd first for ff in *.vert; do echo $ff; paste -d " " $ff ../second/$ff ../third/$ff |\ perl -pe 's/\t\ //' > ../prac/vert-morf/$ff; done
- sjedu pravidla:
cd ../prac screen make-corp.sh -s vert-morf -t vert-rules -o wide_vertical -E ucs2 -p8 -v
- odstraním hodnoty na 13. a 14. pozici, zjednoduším tagy a vyhážu duplikáty:
mkdir vert-desamb cd vert-rules for ff in *.vert; do echo $ff; perl -pe 's/( .{12})../$1--/g' < $ff | normalize-utf8.pl|\ simplify-tags.pl | remove-dupl-vert-utf8.pl > ../vert-desamb/$ff; done
- do jiného adresáře rozgeneruji X-ka:
cd .. mkdir vert-multiple cd vert-morf for ff in *.vert; do echo $ff; simplify-tags.pl < $ff | multiply-tags.pl > ../vert-multiple/$ff; done