Table of Contents
Projekt CPACT
Umístění dat
- Na grimmovi v adresáři
/store/psy
- Podadresáře:
programy
– Tomášovy programyseznamy
texty
– vstupní textywork
– pracovní adresář pro morfologickou analýzu
Morfologická analýza
- Provádíme morfologickou analýzu, pomocné být a kolokace
- Morf. analýza bez
premorfo
apostmorfo
, zachováváme 13. a 14. pozici v tagu:make-whole-corp-csts.sh -A0 -B0 -Eucs2 -M -K -p45 -v
(Ukazuje se však, že některé skripty z PostMorfo potřebujeme, např. musíme nacpat
&spacenum;
do čísel s mezeroumake-corp.sh -Eucs2 -M -A0 -B0 -v -p45 -t csts-morf cd csts-morf/ for ff in *; do /usr/local/corp/DisambiguacniSkripty/PostMorfo-utf-csts/povinne/20_Nahrad_mezery.pl \ < $ff > $ff.tmp; mv $ff.tmp $ff; done cd .. screen make-whole-corp-csts.sh -Eucs2 -M -v -p45 -trules -K
)
- Označíme pomocné být; nejdřív ale musíme do
/tmp/FREKVENCE
zkopírovat obsah z~milena/FREKVENCE
(bez podadresářů):mkdir /tmp/FREKVENCE rsync -lptgoz /home/milena/FREKVENCE/* /tmp/FREKVENCE/
Důležité je, abychom měli v
/tmp/FREKVENCE
právo zápisu. Patří-li někomu jinému, můžeme si udělat adresář s jiným jménem, které pak použijeme v následujícím příkazu:corr-byt-rl-csts.sh -d /tmp/FREKVENCE -k . -p 45 -v
(I tady nám dělají problémy mezery. Nejdřív tedy musíme znovu nacpat
&spacenum;
tam, kde nám hocorr
vymazal.) - Označíme kolokace:
make-kolok-csts.sh -E ucs2 -k . -p 45 -s csts-rules-frazrl-rules1-rulh1-tag-vid-corr-byt -v
a teď už můžeme definitivně smazat
&spacenum;
:for ff in *; do perl -i -pe 's/&spacenum;/ /g' $ff; done
- Převedeme do vertikály:
parallel-filter.sh -C csts2cnk.pl -s csts-kolok -t vert-byt-kolok -p45 -v