====== Projekt CPACT ====== ===== Umístění dat ===== * Na grimmovi v adresáři ''/store/psy'' * Podadresáře: * ''programy'' -- Tomášovy programy * ''seznamy'' * ''texty'' -- vstupní texty * ''work'' -- pracovní adresář pro morfologickou analýzu ===== Morfologická analýza ===== * Provádíme morfologickou analýzu, pomocné být a kolokace * Morf. analýza bez ''premorfo'' a ''postmorfo'', zachováváme 13. a 14. pozici v tagu: make-whole-corp-csts.sh -A0 -B0 -Eucs2 -M -K -p45 -v(Ukazuje se však, že některé skripty z PostMorfo potřebujeme, např. musíme nacpat ''&spacenum;'' do čísel s mezerou make-corp.sh -Eucs2 -M -A0 -B0 -v -p45 -t csts-morf cd csts-morf/ for ff in *; do /usr/local/corp/DisambiguacniSkripty/PostMorfo-utf-csts/povinne/20_Nahrad_mezery.pl \ < $ff > $ff.tmp; mv $ff.tmp $ff; done cd .. screen make-whole-corp-csts.sh -Eucs2 -M -v -p45 -trules -K) * Označíme pomocné být; nejdřív ale musíme do ''/tmp/FREKVENCE'' zkopírovat obsah z ''~milena/FREKVENCE'' (bez podadresářů):mkdir /tmp/FREKVENCE rsync -lptgoz /home/milena/FREKVENCE/* /tmp/FREKVENCE/Důležité je, abychom měli v ''/tmp/FREKVENCE'' právo zápisu. Patří-li někomu jinému, můžeme si udělat adresář s jiným jménem, které pak použijeme v následujícím příkazu: corr-byt-rl-csts.sh -d /tmp/FREKVENCE -k . -p 45 -v(I tady nám dělají problémy mezery. Nejdřív tedy musíme znovu nacpat ''&spacenum;'' tam, kde nám ho ''corr'' vymazal.) * Označíme kolokace: make-kolok-csts.sh -E ucs2 -k . -p 45 -s csts-rules-frazrl-rules1-rulh1-tag-vid-corr-byt -va teď už můžeme definitivně smazat ''&spacenum;'': for ff in *; do perl -i -pe 's/&spacenum;/ /g' $ff; done * Převedeme do vertikály: parallel-filter.sh -C csts2cnk.pl -s csts-kolok -t vert-byt-kolok -p45 -v