Wiki spuštěna 24. 7. 2025

Vytváření korpusů pro CzeSL

Příprava textů

  • převést z UTF-8 do IL2
  • u typu redia odstranit poznámky v závorkách:
    $ cd /corp/CZESL/BARE-redia/in-il2
    $ for ff in *; do echo $ff; perl -i -pe 's/([^\ ])\([^\ ]+\)\ /$1 /g' $ff; done
  • odstranit mezery před interpunkcí:
    $ cd /corp/CZESL/BARE-corr/in-il2
    $ for ff in *; do echo $ff; perl -i -pe 's/\ ([\,\.\!\?\:\;])/$1/g' $ff; done
  • u variant vybrat jen první znak:
    $ for ff in *; do echo $ff; perl -i -pe 's/\|.//g' $ff; done

R0

  • projet morfologií s guesserem:
    $ make-corp.sh -t vert-morg -v -p8
  • vytvořit vert-rules-frazrl-rulh1-tag:
    $ make-corp.sh -s vert-morg -t vert-rules -g -o wide_vertical -v -p8
    $ make-whole-corp.sh -t frazrl -T tag -v -p8
  • vytvořit vert-tag
  • případně vytvořit ještě třetí větev vert-tag-rules-frazrl-rulh1-tag
  • znovu projet morfologií bez guesseru
  • upravit soubory ve vert-morf:
    $ cd .../vert-morf
    $ for ff in *; do echo $ff; sed -i -e '1i\
    ' $ff; done
  • vytvořit adresář vert-tag-guess
  • vytvořit v něm soubory, ve kterých jsou označeny tagy z guesseru:
    $ cd .../vert-tag
    $ for ff in *; do echo $ff; paste $ff ../vert-morf/$ff \
    | perl -pe 's/[1-9\-](\t[^\t]+\t[^\ ]+\ X\@)/\@$1/' \
    | cut -f1-2 | perl -pe 's/^\t$//' > ../vert-tag-guess/$ff; done
  • vytvořit adresář vert-rules-frazrl-rulh1-tag-guess a vytvořit v něm soubory podle předchozího bodu
  • vyrobit korpusy v manatee

Výroba vertikály z XML

  • $ cd ~/PROJEKTY/CZESL/KORPUS/romove/xml
    $ for ff in *.a.xml; do echo $ff; \
    saxon $ff ../../../XSL/vertikala.xsl speaker=$(basename $(cd ..; pwd)) \
    | grep -v "xml version" \
    | grep . \
    | perl -pe 's/^[ ]*//' \
    | perl -pe 's/xmlns[^\ ]+ //' \
    | perl -pe 's/id="[^\"]+\-([^\"]+)"/id="$1"/' > ../vert/${ff%.a.xml}.vert; done

Výroba vertikály pro plain korpus

Kvalifikační práce

  • Převést korpus z UTF-8 do IL2:
    $ for ff in *; do echo $ff; norm-utf8 $ff | simple-http-ent.pl |\
      recode UTF8..l2 > ../in-il2/${ff%.txt1}; done
  • Projet korpus morfologií a udělat vert.
  • $ cd /array/czesl/ames-korpus/4CzeSL_kvalifikacni_prace
    $ mkdir vert-vert
    $ cd vert
    $ for ff in *; do echo $ff; \
      echo "<doc name=\"$ff\" group=\"kval\">" > ../vert-vert/$ff; \
      simple-amper.pl < $ff | simple-corp.pl >> ../vert-vert/$ff; \
      echo "</doc>" >> ../vert-vert/$ff; done
  • Pak ještě případně opravit ampersandy:
    for ff in *; do echo $ff; perl -i -pe 's/&/&amp;/' $ff; done
  • Pro zpětný převod do UTF-8 provést:
    $ cd .../vert
    $ for ff in *; do echo $ff; \
      entity < $ff |\
      entity2 |\
      recode l2..UTF8 |\
      simple-http-utf8.pl > ../vert-utf8/$ff; done

Cizinci z AMESu

  • $ cd orig
    $ for ff in *.plain; do echo $ff; \
      dos2unix < $ff |\
      simple-uvoz.pl |\
      recode UTF8..l2 |\
      grep -v '&dt:' |\
      simple-dot-l2.pl |\
      cat -s |\
      awk '/^$/ && !f{f=1;next}1' > ../vert/${ff%.plain}; done
  • Pokračovat jako výše od mkdir vert-vert.
  • Případně opravit konec a entity:
    $ cd ../vert-vert
    $ for ff in *; do echo $ff; perl -i -pe 's:</doc>:</s>\n</doc>:' $ff; done
    $ for ff in *; do echo $ff; perl -i -pe 's/&priv:(.*)/&priv;/' $ff; done
    $ for ff in *; do echo $ff; perl -i -pe 's/&unclear/&unclear;/' $ff; done
    $ for ff in *; do echo $ff; perl -i -pe 's/^&$/&amp;/' $ff; done

Korektor na vertikálu v UTF-8

Korektura textu

  • $ cd .../vert-utf8
    $ for ff in *; do echo $ff; \
      devert.pl < $ff |\
      ~/PROJEKTY/CZESL/Korektor/korektor ~/PROJEKTY/CZESL/Korektor/spellchecking_h2mor.conf |\
      perl -pe 's/(spelling|grammar) original/$1_original/g' |\
      perl -pe 's/" suggestions/"_suggestions/g' |\
      perl -pe 's/ /\n/g' > ../vert-corr-med/$ff; done
    $ cd ../vert-corr-med
    $ for ff in *; do echo $ff; \
      rekorekt.pl < $ff > ../vert-corr/$ff; done

Převod do vertikály pro tagování

  • $ cd .../vert-corr
    $ for ff in *; do echo $ff; \
      cstocs --fillstring='_' utf8 il2 < $ff |\
      cut -f1 > ../tag-corr/vert/$ff; done
  • $ cd .../vert-corr
    $ for ff in *; do echo $ff; \
      cstocs --fillstring='_' utf8 il2 < $ff |\
      perl -pe 's/.*\t(.*)\t.*/$1/' > ../tag-ori/vert/$ff; done

Úložiště pro anotátory

Slouží jako dočasná náhražka AMESu.

Vytvoření adresářové struktury

Adresářová struktura:

/store/czesl/kontrolori/k_oprave/cesi
                                /neslovani
                                /romove
                                /slovani
                       /ke_konverzi/...
                       /konvertovane/...
            /anotatori/cesi/brtnova/download
                                   /upload
                           /komrskova/download
                                     /upload
                           /kukrechtova/...
                           /poncarova/...
                           /prchlikova/...
                           /vokacova/...
                      /neslovani/hanova/...
                                /havlikova/...
                                /karvaiova/...
                                /kristufkova/...
                                /moldova/...
                                /nenutil/...
                                /pliskova/...
                                /stechova/...
                                /svak/...
                                /vavrickova/...
                                /zudova/...
                      /romove/cerna/...
                             /dvorakova/...
                             /frnochovaad/...
                             /hubena/...
                             /churanova/...
                             /maresova/...
                             /simek/...
                             /svarcova/...
                             /zima/...
                             /zitova/...
                      /slovani/frnochovaan/...
                              /hrabalova/...
                              /hajkova/...
                              /halbichova/...
                              /kominova/...
                              /novakova/...
                              /rybczynska/...
                              /simunkova/...
                              /tesar/...
                              /vlasak/...
                              /zakova/...

Přístupová práva:

czesl# lla
total 20
drwxr-xr-x 5 root root 4096 2011-06-03 15:43 ./
drwxr-xr-x 3 root root 4096 2011-06-03 17:08 ../
drwxr-xr-x 6 root root 4096 2011-06-03 14:47 anotatori/
drwxr-xr-x 5 root root 4096 2011-06-03 14:40 kontrolori/
kontrolori# lla
total 20
drwxr-xr-x 5 root root      4096 2011-06-03 14:40 ./
drwxr-xr-x 5 root root      4096 2011-06-03 15:43 ../
drwxrwxr-x 6 root kontrolor 4096 2011-05-25 15:39 k_oprave/
drwxrwxr-x 6 root kontrolor 4096 2011-05-25 15:38 ke_konverzi/
drwxrwxr-x 6 root kontrolor 4096 2011-05-25 15:38 konvertovane/

konvertovane# lla
total 24
drwxrwxr-x 6 root kontrolor 4096 2011-05-25 15:38 ./
drwxr-xr-x 5 root root      4096 2011-06-03 14:40 ../
drwxrwxr-x 2 root kontrolor 4096 2011-06-03 19:35 cesi/
drwxrwxr-x 2 root kontrolor 4096 2011-05-25 15:38 neslovani/
drwxrwxr-x 2 root kontrolor 4096 2011-05-25 15:38 romove/
drwxrwxr-x 2 root kontrolor 4096 2011-05-25 15:38 slovani/
anotatori# lla
total 24
drwxr-xr-x 6 root root 4096 2011-06-03 14:47 ./
drwxr-xr-x 5 root root 4096 2011-06-03 15:43 ../
drwxr-xr-x 9 root root 4096 2011-06-03 19:00 cesi/
drwxr-xr-x 2 root root 4096 2011-06-03 14:47 neslovani/
drwxr-xr-x 2 root root 4096 2011-06-03 14:47 romove/
drwxr-xr-x 2 root root 4096 2011-06-03 14:47 slovani/

cesi# lla
total 36
drwxr-xr-x 9 root root     4096 2011-06-03 19:00 ./
drwxr-xr-x 6 root root     4096 2011-06-03 14:47 ../
drwxrwx--- 2 root www-data 4096 2011-06-03 19:46 .files/
drwxr-xr-x 4 root root     4096 2011-06-03 14:30 Brtnova/
drwxr-xr-x 4 root root     4096 2011-06-03 18:59 Komrskova/
drwxr-xr-x 4 root root     4096 2011-06-03 18:59 Kukrechtova/
drwxr-xr-x 4 root root     4096 2011-06-03 18:59 Poncarova/
drwxr-xr-x 4 root root     4096 2011-06-03 18:59 Prchlikova/
drwxr-xr-x 4 root root     4096 2011-06-03 18:59 Vokacova/

Brtnova# lla
total 16
drwxr-xr-x 4 root    root     4096 2011-06-03 14:30 ./
drwxr-xr-x 9 root    root     4096 2011-06-03 19:00 ../
drwxrwxr-x 2 root    www-data 4096 2011-06-03 19:46 download/
drwxr-xr-x 2 brtnova anotator 4096 2011-06-03 19:45 upload/

Noví uživatelé a skupiny

Skupiny

kontrolor:x:10000:jhana
anotator:x:10002:

Kontroloři

hrdlickova:x:10001:10000:Tereza Hrdlickova:/store/czesl:/usr/bin/scponly

Supervizoři

stindlova:x:10002:10002:Barbora Stindlova:/store/czesl/anotatori/neslovani:/usr/bin/scponly
pierscieniak:x:10003:10002:Piotr Pawel Pierscieniak:/store/czesl/anotatori/slovani:/usr/bin/scponly
bedrichova:x:10004:10002:Zuzanna Bedrichova:/store/czesl/anotatori/romove:/usr/bin/scponly
hlavackova:x:10005:10002:Eva Hlavackova:/store/czesl/anotatori/cesi:/usr/bin/scponly

Vytvoření uživatele:

useradd -d /store/czesl/anotatori/neslovani -c "Barbora Stindlova" -g 10002 \
-M -s /usr/bin/scponly -u 10002 stindlova

Uživatel webu:

$ lla /var/www/html/anotatori/.files
-rw-rw-r-- 1 skoumal apache   91 Jun  1 11:14 .skoumal
$ cat /var/www/html/anotatori/.files/.skoumal
2a5a166d5d7fe042bd0d2e0f78ab9488:hana.skoumalova@ff.cuni.cz:/store/czesl/kontrolori/konvertovane/cesi

QR Code
QR Code wiki:user:skoumal:czesl (generated for current page)