====== Projekt CPACT ======
===== Umístění dat =====
* Na grimmovi v adresáři ''/store/psy''
* Podadresáře:
* ''programy'' -- Tomášovy programy
* ''seznamy''
* ''texty'' -- vstupní texty
* ''work'' -- pracovní adresář pro morfologickou analýzu
===== Morfologická analýza =====
* Provádíme morfologickou analýzu, pomocné být a kolokace
* Morf. analýza bez ''premorfo'' a ''postmorfo'', zachováváme 13. a 14. pozici v tagu:
make-whole-corp-csts.sh -A0 -B0 -Eucs2 -M -K -p45 -v
(Ukazuje se však, že některé skripty z PostMorfo potřebujeme, např. musíme nacpat ''&spacenum;'' do čísel s mezerou
make-corp.sh -Eucs2 -M -A0 -B0 -v -p45 -t csts-morf
cd csts-morf/
for ff in *; do /usr/local/corp/DisambiguacniSkripty/PostMorfo-utf-csts/povinne/20_Nahrad_mezery.pl \
< $ff > $ff.tmp; mv $ff.tmp $ff; done
cd ..
screen make-whole-corp-csts.sh -Eucs2 -M -v -p45 -trules -K
)
* Označíme pomocné být; nejdřív ale musíme do ''/tmp/FREKVENCE'' zkopírovat obsah z ''~milena/FREKVENCE'' (bez podadresářů):mkdir /tmp/FREKVENCE
rsync -lptgoz /home/milena/FREKVENCE/* /tmp/FREKVENCE/
Důležité je, abychom měli v ''/tmp/FREKVENCE'' právo zápisu. Patří-li někomu jinému, můžeme si udělat adresář s jiným jménem, které pak použijeme v následujícím příkazu:
corr-byt-rl-csts.sh -d /tmp/FREKVENCE -k . -p 45 -v
(I tady nám dělají problémy mezery. Nejdřív tedy musíme znovu nacpat ''&spacenum;'' tam, kde nám ho ''corr'' vymazal.)
* Označíme kolokace:
make-kolok-csts.sh -E ucs2 -k . -p 45 -s csts-rules-frazrl-rules1-rulh1-tag-vid-corr-byt -v
a teď už můžeme definitivně smazat ''&spacenum;'':
for ff in *; do perl -i -pe 's/&spacenum;/ /g' $ff; done
* Převedeme do vertikály:
parallel-filter.sh -C csts2cnk.pl -s csts-kolok -t vert-byt-kolok -p45 -v