====== Vytváření korpusů pro CzeSL ======
===== Příprava textů =====
* převést z ''UTF-8'' do ''IL2''
* u typu ''redia'' odstranit poznámky v závorkách:$ cd /corp/CZESL/BARE-redia/in-il2
$ for ff in *; do echo $ff; perl -i -pe 's/([^\ ])\([^\ ]+\)\ /$1 /g' $ff; done
* odstranit mezery před interpunkcí:$ cd /corp/CZESL/BARE-corr/in-il2
$ for ff in *; do echo $ff; perl -i -pe 's/\ ([\,\.\!\?\:\;])/$1/g' $ff; done
* u variant vybrat jen první znak:$ for ff in *; do echo $ff; perl -i -pe 's/\|.//g' $ff; done
===== R0 =====
* projet morfologií s guesserem:$ make-corp.sh -t vert-morg -v -p8
* vytvořit ''vert-rules-frazrl-rulh1-tag'':$ make-corp.sh -s vert-morg -t vert-rules -g -o wide_vertical -v -p8
$ make-whole-corp.sh -t frazrl -T tag -v -p8
* vytvořit ''vert-tag''
* případně vytvořit ještě třetí větev ''vert-tag-rules-frazrl-rulh1-tag''
* znovu projet morfologií bez guesseru
* upravit soubory ve ''vert-morf'':$ cd .../vert-morf
$ for ff in *; do echo $ff; sed -i -e '1i\
' $ff; done
* vytvořit adresář ''vert-tag-guess''
* vytvořit v něm soubory, ve kterých jsou označeny tagy z guesseru:$ cd .../vert-tag
$ for ff in *; do echo $ff; paste $ff ../vert-morf/$ff \
| perl -pe 's/[1-9\-](\t[^\t]+\t[^\ ]+\ X\@)/\@$1/' \
| cut -f1-2 | perl -pe 's/^\t$//' > ../vert-tag-guess/$ff; done
* vytvořit adresář ''vert-rules-frazrl-rulh1-tag-guess'' a vytvořit v něm soubory podle předchozího bodu
* vyrobit korpusy v manatee
====== Výroba vertikály z XML ======
*
$ cd ~/PROJEKTY/CZESL/KORPUS/romove/xml
$ for ff in *.a.xml; do echo $ff; \
saxon $ff ../../../XSL/vertikala.xsl speaker=$(basename $(cd ..; pwd)) \
| grep -v "xml version" \
| grep . \
| perl -pe 's/^[ ]*//' \
| perl -pe 's/xmlns[^\ ]+ //' \
| perl -pe 's/id="[^\"]+\-([^\"]+)"/id="$1"/' > ../vert/${ff%.a.xml}.vert; done
====== Výroba vertikály pro plain korpus ======
===== Kvalifikační práce =====
* Převést korpus z UTF-8 do IL2:$ for ff in *; do echo $ff; norm-utf8 $ff | simple-http-ent.pl |\
recode UTF8..l2 > ../in-il2/${ff%.txt1}; done
* Projet korpus morfologií a udělat ''vert''.
* $ cd /array/czesl/ames-korpus/4CzeSL_kvalifikacni_prace
$ mkdir vert-vert
$ cd vert
$ for ff in *; do echo $ff; \
echo "" > ../vert-vert/$ff; \
simple-amper.pl < $ff | simple-corp.pl >> ../vert-vert/$ff; \
echo "" >> ../vert-vert/$ff; done
* Pak ještě případně opravit ampersandy:for ff in *; do echo $ff; perl -i -pe 's/&/&/' $ff; done
* Pro zpětný převod do UTF-8 provést:$ cd .../vert
$ for ff in *; do echo $ff; \
entity < $ff |\
entity2 |\
recode l2..UTF8 |\
simple-http-utf8.pl > ../vert-utf8/$ff; done
===== Cizinci z AMESu =====
* $ cd orig
$ for ff in *.plain; do echo $ff; \
dos2unix < $ff |\
simple-uvoz.pl |\
recode UTF8..l2 |\
grep -v '&dt:' |\
simple-dot-l2.pl |\
cat -s |\
awk '/^$/ && !f{f=1;next}1' > ../vert/${ff%.plain}; done
* Pokračovat jako výše od ''mkdir vert-vert''.
* Případně opravit konec a entity:$ cd ../vert-vert
$ for ff in *; do echo $ff; perl -i -pe 's::\n:' $ff; done
$ for ff in *; do echo $ff; perl -i -pe 's/&priv:(.*)/&priv;/' $ff; done
$ for ff in *; do echo $ff; perl -i -pe 's/&unclear/&unclear;/' $ff; done
$ for ff in *; do echo $ff; perl -i -pe 's/^&$/&/' $ff; done
====== Korektor na vertikálu v UTF-8 ======
===== Korektura textu =====
*$ cd .../vert-utf8
$ for ff in *; do echo $ff; \
devert.pl < $ff |\
~/PROJEKTY/CZESL/Korektor/korektor ~/PROJEKTY/CZESL/Korektor/spellchecking_h2mor.conf |\
perl -pe 's/(spelling|grammar) original/$1_original/g' |\
perl -pe 's/" suggestions/"_suggestions/g' |\
perl -pe 's/ /\n/g' > ../vert-corr-med/$ff; done
$ cd ../vert-corr-med
$ for ff in *; do echo $ff; \
rekorekt.pl < $ff > ../vert-corr/$ff; done
===== Převod do vertikály pro tagování =====
*$ cd .../vert-corr
$ for ff in *; do echo $ff; \
cstocs --fillstring='_' utf8 il2 < $ff |\
cut -f1 > ../tag-corr/vert/$ff; done
*$ cd .../vert-corr
$ for ff in *; do echo $ff; \
cstocs --fillstring='_' utf8 il2 < $ff |\
perl -pe 's/.*\t(.*)\t.*/$1/' > ../tag-ori/vert/$ff; done
====== Úložiště pro anotátory ======
Slouží jako dočasná náhražka AMESu.
===== Vytvoření adresářové struktury =====
Adresářová struktura:
/store/czesl/kontrolori/k_oprave/cesi
/neslovani
/romove
/slovani
/ke_konverzi/...
/konvertovane/...
/anotatori/cesi/brtnova/download
/upload
/komrskova/download
/upload
/kukrechtova/...
/poncarova/...
/prchlikova/...
/vokacova/...
/neslovani/hanova/...
/havlikova/...
/karvaiova/...
/kristufkova/...
/moldova/...
/nenutil/...
/pliskova/...
/stechova/...
/svak/...
/vavrickova/...
/zudova/...
/romove/cerna/...
/dvorakova/...
/frnochovaad/...
/hubena/...
/churanova/...
/maresova/...
/simek/...
/svarcova/...
/zima/...
/zitova/...
/slovani/frnochovaan/...
/hrabalova/...
/hajkova/...
/halbichova/...
/kominova/...
/novakova/...
/rybczynska/...
/simunkova/...
/tesar/...
/vlasak/...
/zakova/...
Přístupová práva:
czesl# lla
total 20
drwxr-xr-x 5 root root 4096 2011-06-03 15:43 ./
drwxr-xr-x 3 root root 4096 2011-06-03 17:08 ../
drwxr-xr-x 6 root root 4096 2011-06-03 14:47 anotatori/
drwxr-xr-x 5 root root 4096 2011-06-03 14:40 kontrolori/
kontrolori# lla
total 20
drwxr-xr-x 5 root root 4096 2011-06-03 14:40 ./
drwxr-xr-x 5 root root 4096 2011-06-03 15:43 ../
drwxrwxr-x 6 root kontrolor 4096 2011-05-25 15:39 k_oprave/
drwxrwxr-x 6 root kontrolor 4096 2011-05-25 15:38 ke_konverzi/
drwxrwxr-x 6 root kontrolor 4096 2011-05-25 15:38 konvertovane/
konvertovane# lla
total 24
drwxrwxr-x 6 root kontrolor 4096 2011-05-25 15:38 ./
drwxr-xr-x 5 root root 4096 2011-06-03 14:40 ../
drwxrwxr-x 2 root kontrolor 4096 2011-06-03 19:35 cesi/
drwxrwxr-x 2 root kontrolor 4096 2011-05-25 15:38 neslovani/
drwxrwxr-x 2 root kontrolor 4096 2011-05-25 15:38 romove/
drwxrwxr-x 2 root kontrolor 4096 2011-05-25 15:38 slovani/
anotatori# lla
total 24
drwxr-xr-x 6 root root 4096 2011-06-03 14:47 ./
drwxr-xr-x 5 root root 4096 2011-06-03 15:43 ../
drwxr-xr-x 9 root root 4096 2011-06-03 19:00 cesi/
drwxr-xr-x 2 root root 4096 2011-06-03 14:47 neslovani/
drwxr-xr-x 2 root root 4096 2011-06-03 14:47 romove/
drwxr-xr-x 2 root root 4096 2011-06-03 14:47 slovani/
cesi# lla
total 36
drwxr-xr-x 9 root root 4096 2011-06-03 19:00 ./
drwxr-xr-x 6 root root 4096 2011-06-03 14:47 ../
drwxrwx--- 2 root www-data 4096 2011-06-03 19:46 .files/
drwxr-xr-x 4 root root 4096 2011-06-03 14:30 Brtnova/
drwxr-xr-x 4 root root 4096 2011-06-03 18:59 Komrskova/
drwxr-xr-x 4 root root 4096 2011-06-03 18:59 Kukrechtova/
drwxr-xr-x 4 root root 4096 2011-06-03 18:59 Poncarova/
drwxr-xr-x 4 root root 4096 2011-06-03 18:59 Prchlikova/
drwxr-xr-x 4 root root 4096 2011-06-03 18:59 Vokacova/
Brtnova# lla
total 16
drwxr-xr-x 4 root root 4096 2011-06-03 14:30 ./
drwxr-xr-x 9 root root 4096 2011-06-03 19:00 ../
drwxrwxr-x 2 root www-data 4096 2011-06-03 19:46 download/
drwxr-xr-x 2 brtnova anotator 4096 2011-06-03 19:45 upload/
===== Noví uživatelé a skupiny =====
==== Skupiny ====
kontrolor:x:10000:jhana
anotator:x:10002:
==== Kontroloři ====
hrdlickova:x:10001:10000:Tereza Hrdlickova:/store/czesl:/usr/bin/scponly
==== Supervizoři ====
stindlova:x:10002:10002:Barbora Stindlova:/store/czesl/anotatori/neslovani:/usr/bin/scponly
pierscieniak:x:10003:10002:Piotr Pawel Pierscieniak:/store/czesl/anotatori/slovani:/usr/bin/scponly
bedrichova:x:10004:10002:Zuzanna Bedrichova:/store/czesl/anotatori/romove:/usr/bin/scponly
hlavackova:x:10005:10002:Eva Hlavackova:/store/czesl/anotatori/cesi:/usr/bin/scponly
Vytvoření uživatele:
useradd -d /store/czesl/anotatori/neslovani -c "Barbora Stindlova" -g 10002 \
-M -s /usr/bin/scponly -u 10002 stindlova
Uživatel webu:
$ lla /var/www/html/anotatori/.files
-rw-rw-r-- 1 skoumal apache 91 Jun 1 11:14 .skoumal
$ cat /var/www/html/anotatori/.files/.skoumal
2a5a166d5d7fe042bd0d2e0f78ab9488:hana.skoumalova@ff.cuni.cz:/store/czesl/kontrolori/konvertovane/cesi