====== Návrh nového grantu ======
===== Výroba korpusů pro testování hypotéz =====
* Adresář se zdroji a dokumenty: ''/home/skoumal/PROJEKTY/GACR2729''
* Pracovní adresář: ''/home/skoumal/cnk-work/GACR2729'' - v něm zpracováváme češtinu
* Standardním postupem korpus morfologicky otagujeme a opatříme obojí frazeologickou anotací (použijeme devel).
* Závěrečná výroba vertikály:
* Vyrobíme si adresáře ''vert-1-6'' až ''vert-A'':cd .../cestina
mkdir -p vert-1-6
mkdir -p vert-7
mkdir -p vert-8
mkdir -p vert-9
mkdir -p vert-Aa rozhodíme do nich sloupcecd vert-rules0-frazrl-rules-mdita-kolok-sublm-agr
for ff in *; do cut -f1-6 $ff > ../vert-1-6/$ff; done
for ff in *; do cut -f7 $ff > ../vert-7/$ff; done
for ff in *; do cut -f8 $ff > ../vert-8/$ff; done
cd ../mwe_out/
for ff in *; do cut -f7 $ff > ../vert-9/$ff; done
for ff in *; do cut -f8 $ff > ../vert-A/$ff; done
* Poslepujeme sloupce a vyrobíme soubory v adresáři ''vert-kolok'':
cd ../vert-1-6/
for ff in *; do paste $ff ../vert-7/$ff ../vert-8/$ff ../vert-9/$ff ../vert-A/$ff | perl -pe 's/[\ \t]+$//' > ../vert-kolok/${ff%.txt}.vrt; done
cd ../vert-kolok/
for ff in ../orig/*.txt; do ln -s $ff; done
for ff in ../orig/*.json; do ln -s $ff; done
for ff in ../orig/*.xml; do ln -s $ff; donea vyrobíme XML a vertikály
parallel-mask.sh -C "ann2standoff -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p frantalemur -P none" -m ".*\.vrt" -v -p45 -d.
parallel-mask.sh -C "standoff2xml -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p frantalemur -me s" -m ".*\.txt$" -v -p100 -d.
for ff in *.ann.xml; do echo $ff; \
xml2vrt -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p frantalemur -g g $ff | perl -pe 'undef $/; s:\n::g' \
> ../vertikaly/${ff%.ann.xml}.vert.xml; done