====== Tagování textů z 19. století ====== * Texty jsou v "ČNK vertikále" na trnkovi v adresáři ''/cnk/common/korpus/vertikaly/DIA_v0/vertikala''. * Na grimmovi máme adresář ''/store/corp/Starocesi/19stol''. * Odstraníme další sloupce:cut -f1 vertikala > vertikala.cut * Nasekáme na jednotlivé texty:splitdoc-xml text < vertikala.cut * Upravíme jména souborů:for ff in text.*; do gg=$(echo $ff|perl -pe 's/\.00/./'); echo $gg; mv $ff $gg; done * Převedeme do ''csts'':mkdir ../csts for ff in text*; do echo $ff; vert_csts.pl < $ff > ../csts/$ff; donea spravíme ho: cd ../csts for ff in *; do echo $ff; perl -i -pe 'undef $/; s/\n(\n//' $ff; done for ff in *; do echo $ff; perl -i -pe 'undef $/; s:\n():$1:' $ff; done * Provedeme morfologii a pak zbytek:frozen 201802-hybrid make-corp.sh -Eucs2 -s csts -t csts-morf -A1 -B1 -p45 -v -M make-whole-corp-csts.sh -Eucs2 -f -M -p45 -trules -vV nejnovějším ''PostMorfo'' jsou doplněná slovíčka a ''LEX'' je zkompilovaný i s přidanými tagy. * Převedeme do vertikály: parallel-filter.sh -C "csts2cnk.pl | perl -pe 's/()-$/\$1/'" -p45 \ -s csts-rules-frazrl-rulh1-tag-vid-corr -t vert-corr -v cd vert-corr for ff in *; do echo "" >> $ff; done * Zkontrolujeme řádky:for ff in *; do echo $ff; sdiff -s <(cut -f1 $ff) ../orig/$ff; done | l * Pokud souhlasí počet, ale ve formách jsou rozdíly, vyměníme formy: for ff in *; do cut -f2- $ff > $ff.2-; done for ff in *.2-; do paste ../orig/${ff%.2-} $ff | perl -pe 's/\t<.*//' > ${ff%.2-}; done rm *.2- * A znovu pro jistotu zkontrolujeme