Wiki spuštěna 24. 7. 2025

Projekt CPACT

Umístění dat

  • Na grimmovi v adresáři /store/psy
  • Podadresáře:
    • programy – Tomášovy programy
    • seznamy
    • texty – vstupní texty
    • work – pracovní adresář pro morfologickou analýzu

Morfologická analýza

  • Provádíme morfologickou analýzu, pomocné být a kolokace
  • Morf. analýza bez premorfo a postmorfo, zachováváme 13. a 14. pozici v tagu:
    make-whole-corp-csts.sh -A0 -B0 -Eucs2 -M -K -p45 -v

    (Ukazuje se však, že některé skripty z PostMorfo potřebujeme, např. musíme nacpat &spacenum; do čísel s mezerou

    make-corp.sh -Eucs2 -M -A0 -B0 -v -p45 -t csts-morf
    cd csts-morf/
    for ff in *; do /usr/local/corp/DisambiguacniSkripty/PostMorfo-utf-csts/povinne/20_Nahrad_mezery.pl \
    < $ff > $ff.tmp; mv $ff.tmp $ff; done
    cd ..
    screen make-whole-corp-csts.sh -Eucs2 -M -v -p45 -trules -K

    )

  • Označíme pomocné být; nejdřív ale musíme do /tmp/FREKVENCE zkopírovat obsah z ~milena/FREKVENCE (bez podadresářů):
    mkdir /tmp/FREKVENCE
    rsync -lptgoz /home/milena/FREKVENCE/* /tmp/FREKVENCE/

    Důležité je, abychom měli v /tmp/FREKVENCE právo zápisu. Patří-li někomu jinému, můžeme si udělat adresář s jiným jménem, které pak použijeme v následujícím příkazu:

    corr-byt-rl-csts.sh -d /tmp/FREKVENCE -k . -p 45 -v

    (I tady nám dělají problémy mezery. Nejdřív tedy musíme znovu nacpat &spacenum; tam, kde nám ho corr vymazal.)

  • Označíme kolokace:
    make-kolok-csts.sh -E ucs2 -k . -p 45 -s csts-rules-frazrl-rules1-rulh1-tag-vid-corr-byt -v

    a teď už můžeme definitivně smazat &spacenum;:

    for ff in *; do perl -i -pe 's/&spacenum;/ /g' $ff; done
  • Převedeme do vertikály:
    parallel-filter.sh -C csts2cnk.pl -s csts-kolok -t vert-byt-kolok -p45 -v

QR Code
QR Code wiki:user:skoumal:psychologove (generated for current page)