====== Etalon z PDT ====== * Připraví se 2 druhy vertikály se zjednodušenými tagy: * projetá pravidly + roznásobené tagy * jenom roznásobené tagy * Tagy jsou zjednodušené tímto způsobem (viz ''simplify-tags.pl''): * P6 a P7 (refl. zájmena) nemají určené číslo * Vp, Vq a Vs (participia) nerozlišují osobu * Vs (pasivní participia) nerozlišují čas * Vc (kondicionál) ve třetí osobě nerozlišuje číslo * všechna čísla psaná číslicemi nebo římskými číslicemi mají tag ''C='' * P1 a PS (zájmena jeho a jehož) nerozlišují rod posesora * VB (finitní tvary sloves) nemají X u osoby a čísla (týkalo se cizích slov) * Příprava vertikály: * od Tomáše dostanu "jednoznačnou" vertikálu s tabulátorem před tagem * rozhodím pomocí cut do tří sloupců:mkdir first mkdir second mkdir third for ff in *.vert; do echo $ff; cut -f1 $ff > first/$ff;done for ff in *.vert; do echo $ff; cut -f2 $ff > second/$ff;done for ff in *.vert; do echo $ff; cut -f3 $ff > third/$ff;done * u ''second'' odstraním ocásky:cd second for ff in *.vert; do echo $ff; perl -i -pe 's/(.)-_`.*/$1/' $ff; done * vše zase slepím do "naší" vertikály:cd .. mkdir -p prac/vert-morf cd first for ff in *.vert; do echo $ff; paste -d " " $ff ../second/$ff ../third/$ff |\ perl -pe 's/\t\ //' > ../prac/vert-morf/$ff; done * sjedu pravidla:cd ../prac screen make-corp.sh -s vert-morf -t vert-rules -o wide_vertical -E ucs2 -p8 -v * odstraním hodnoty na 13. a 14. pozici, zjednoduším tagy a vyhážu duplikáty:mkdir vert-desamb cd vert-rules for ff in *.vert; do echo $ff; perl -pe 's/( .{12})../$1--/g' < $ff | normalize-utf8.pl|\ simplify-tags.pl | remove-dupl-vert-utf8.pl > ../vert-desamb/$ff; done * do jiného adresáře rozgeneruji X-ka:cd .. mkdir vert-multiple cd vert-morf for ff in *.vert; do echo $ff; simplify-tags.pl < $ff | multiply-tags.pl > ../vert-multiple/$ff; done