Wiki spuštěna 24. 7. 2025

Návrh nového grantu

Výroba korpusů pro testování hypotéz

  • Adresář se zdroji a dokumenty: /home/skoumal/PROJEKTY/GACR2729
  • Pracovní adresář: /home/skoumal/cnk-work/GACR2729 - v něm zpracováváme češtinu
  • Standardním postupem korpus morfologicky otagujeme a opatříme obojí frazeologickou anotací (použijeme devel).
  • Závěrečná výroba vertikály:
    • Vyrobíme si adresáře vert-1-6vert-A:
      cd .../cestina
      mkdir -p vert-1-6
      mkdir -p vert-7
      mkdir -p vert-8
      mkdir -p vert-9
      mkdir -p vert-A

      a rozhodíme do nich sloupce

      cd vert-rules0-frazrl-rules-mdita-kolok-sublm-agr
      for ff in *; do cut -f1-6 $ff > ../vert-1-6/$ff; done
      for ff in *; do cut -f7 $ff > ../vert-7/$ff; done
      for ff in *; do cut -f8 $ff > ../vert-8/$ff; done
      cd ../mwe_out/
      for ff in *; do cut -f7 $ff > ../vert-9/$ff; done
      for ff in *; do cut -f8 $ff > ../vert-A/$ff; done
    • Poslepujeme sloupce a vyrobíme soubory v adresáři vert-kolok:
      cd ../vert-1-6/
      for ff in *; do paste $ff ../vert-7/$ff ../vert-8/$ff ../vert-9/$ff ../vert-A/$ff | perl -pe 's/[\ \t]+$//' > ../vert-kolok/${ff%.txt}.vrt; done
      cd ../vert-kolok/
      for ff in ../orig/*.txt; do ln -s $ff; done
      for ff in ../orig/*.json; do ln -s $ff; done
      for ff in ../orig/*.xml; do ln -s $ff; done

      a vyrobíme XML a vertikály

      parallel-mask.sh -C "ann2standoff -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p frantalemur -P none" -m ".*\.vrt" -v -p45 -d.
      parallel-mask.sh -C "standoff2xml -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p frantalemur -me s" -m ".*\.txt$" -v -p100 -d.
      for ff in *.ann.xml; do echo $ff; \
        xml2vrt -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p frantalemur -g g $ff | perl -pe 'undef $/; s:</s>\n</s>:</s>:g' \
        > ../vertikaly/${ff%.ann.xml}.vert.xml; done

QR Code
QR Code wiki:user:skoumal:gacr27 (generated for current page)