Table of Contents
Vytváření korpusů pro CzeSL
Příprava textů
- převést z
UTF-8
doIL2
- u typu
redia
odstranit poznámky v závorkách:$ cd /corp/CZESL/BARE-redia/in-il2 $ for ff in *; do echo $ff; perl -i -pe 's/([^\ ])\([^\ ]+\)\ /$1 /g' $ff; done
- odstranit mezery před interpunkcí:
$ cd /corp/CZESL/BARE-corr/in-il2 $ for ff in *; do echo $ff; perl -i -pe 's/\ ([\,\.\!\?\:\;])/$1/g' $ff; done
- u variant vybrat jen první znak:
$ for ff in *; do echo $ff; perl -i -pe 's/\|.//g' $ff; done
R0
- projet morfologií s guesserem:
$ make-corp.sh -t vert-morg -v -p8
- vytvořit
vert-rules-frazrl-rulh1-tag
:$ make-corp.sh -s vert-morg -t vert-rules -g -o wide_vertical -v -p8 $ make-whole-corp.sh -t frazrl -T tag -v -p8
- vytvořit
vert-tag
- případně vytvořit ještě třetí větev
vert-tag-rules-frazrl-rulh1-tag
- znovu projet morfologií bez guesseru
- upravit soubory ve
vert-morf
:$ cd .../vert-morf $ for ff in *; do echo $ff; sed -i -e '1i\ ' $ff; done
- vytvořit adresář
vert-tag-guess
- vytvořit v něm soubory, ve kterých jsou označeny tagy z guesseru:
$ cd .../vert-tag $ for ff in *; do echo $ff; paste $ff ../vert-morf/$ff \ | perl -pe 's/[1-9\-](\t[^\t]+\t[^\ ]+\ X\@)/\@$1/' \ | cut -f1-2 | perl -pe 's/^\t$//' > ../vert-tag-guess/$ff; done
- vytvořit adresář
vert-rules-frazrl-rulh1-tag-guess
a vytvořit v něm soubory podle předchozího bodu - vyrobit korpusy v manatee
Výroba vertikály z XML
$ cd ~/PROJEKTY/CZESL/KORPUS/romove/xml $ for ff in *.a.xml; do echo $ff; \ saxon $ff ../../../XSL/vertikala.xsl speaker=$(basename $(cd ..; pwd)) \ | grep -v "xml version" \ | grep . \ | perl -pe 's/^[ ]*//' \ | perl -pe 's/xmlns[^\ ]+ //' \ | perl -pe 's/id="[^\"]+\-([^\"]+)"/id="$1"/' > ../vert/${ff%.a.xml}.vert; done
Výroba vertikály pro plain korpus
Kvalifikační práce
- Převést korpus z UTF-8 do IL2:
$ for ff in *; do echo $ff; norm-utf8 $ff | simple-http-ent.pl |\ recode UTF8..l2 > ../in-il2/${ff%.txt1}; done
- Projet korpus morfologií a udělat
vert
. $ cd /array/czesl/ames-korpus/4CzeSL_kvalifikacni_prace $ mkdir vert-vert $ cd vert $ for ff in *; do echo $ff; \ echo "<doc name=\"$ff\" group=\"kval\">" > ../vert-vert/$ff; \ simple-amper.pl < $ff | simple-corp.pl >> ../vert-vert/$ff; \ echo "</doc>" >> ../vert-vert/$ff; done
- Pak ještě případně opravit ampersandy:
for ff in *; do echo $ff; perl -i -pe 's/&/&/' $ff; done
- Pro zpětný převod do UTF-8 provést:
$ cd .../vert $ for ff in *; do echo $ff; \ entity < $ff |\ entity2 |\ recode l2..UTF8 |\ simple-http-utf8.pl > ../vert-utf8/$ff; done
Cizinci z AMESu
$ cd orig $ for ff in *.plain; do echo $ff; \ dos2unix < $ff |\ simple-uvoz.pl |\ recode UTF8..l2 |\ grep -v '&dt:' |\ simple-dot-l2.pl |\ cat -s |\ awk '/^$/ && !f{f=1;next}1' > ../vert/${ff%.plain}; done
- Pokračovat jako výše od
mkdir vert-vert
. - Případně opravit konec a entity:
$ cd ../vert-vert $ for ff in *; do echo $ff; perl -i -pe 's:</doc>:</s>\n</doc>:' $ff; done $ for ff in *; do echo $ff; perl -i -pe 's/&priv:(.*)/&priv;/' $ff; done $ for ff in *; do echo $ff; perl -i -pe 's/&unclear/&unclear;/' $ff; done $ for ff in *; do echo $ff; perl -i -pe 's/^&$/&/' $ff; done
Korektor na vertikálu v UTF-8
Korektura textu
$ cd .../vert-utf8 $ for ff in *; do echo $ff; \ devert.pl < $ff |\ ~/PROJEKTY/CZESL/Korektor/korektor ~/PROJEKTY/CZESL/Korektor/spellchecking_h2mor.conf |\ perl -pe 's/(spelling|grammar) original/$1_original/g' |\ perl -pe 's/" suggestions/"_suggestions/g' |\ perl -pe 's/ /\n/g' > ../vert-corr-med/$ff; done $ cd ../vert-corr-med $ for ff in *; do echo $ff; \ rekorekt.pl < $ff > ../vert-corr/$ff; done
Převod do vertikály pro tagování
$ cd .../vert-corr $ for ff in *; do echo $ff; \ cstocs --fillstring='_' utf8 il2 < $ff |\ cut -f1 > ../tag-corr/vert/$ff; done
$ cd .../vert-corr $ for ff in *; do echo $ff; \ cstocs --fillstring='_' utf8 il2 < $ff |\ perl -pe 's/.*\t(.*)\t.*/$1/' > ../tag-ori/vert/$ff; done
Úložiště pro anotátory
Slouží jako dočasná náhražka AMESu.
Vytvoření adresářové struktury
Adresářová struktura:
/store/czesl/kontrolori/k_oprave/cesi /neslovani /romove /slovani /ke_konverzi/... /konvertovane/... /anotatori/cesi/brtnova/download /upload /komrskova/download /upload /kukrechtova/... /poncarova/... /prchlikova/... /vokacova/... /neslovani/hanova/... /havlikova/... /karvaiova/... /kristufkova/... /moldova/... /nenutil/... /pliskova/... /stechova/... /svak/... /vavrickova/... /zudova/... /romove/cerna/... /dvorakova/... /frnochovaad/... /hubena/... /churanova/... /maresova/... /simek/... /svarcova/... /zima/... /zitova/... /slovani/frnochovaan/... /hrabalova/... /hajkova/... /halbichova/... /kominova/... /novakova/... /rybczynska/... /simunkova/... /tesar/... /vlasak/... /zakova/...
Přístupová práva:
czesl# lla total 20 drwxr-xr-x 5 root root 4096 2011-06-03 15:43 ./ drwxr-xr-x 3 root root 4096 2011-06-03 17:08 ../ drwxr-xr-x 6 root root 4096 2011-06-03 14:47 anotatori/ drwxr-xr-x 5 root root 4096 2011-06-03 14:40 kontrolori/
kontrolori# lla total 20 drwxr-xr-x 5 root root 4096 2011-06-03 14:40 ./ drwxr-xr-x 5 root root 4096 2011-06-03 15:43 ../ drwxrwxr-x 6 root kontrolor 4096 2011-05-25 15:39 k_oprave/ drwxrwxr-x 6 root kontrolor 4096 2011-05-25 15:38 ke_konverzi/ drwxrwxr-x 6 root kontrolor 4096 2011-05-25 15:38 konvertovane/ konvertovane# lla total 24 drwxrwxr-x 6 root kontrolor 4096 2011-05-25 15:38 ./ drwxr-xr-x 5 root root 4096 2011-06-03 14:40 ../ drwxrwxr-x 2 root kontrolor 4096 2011-06-03 19:35 cesi/ drwxrwxr-x 2 root kontrolor 4096 2011-05-25 15:38 neslovani/ drwxrwxr-x 2 root kontrolor 4096 2011-05-25 15:38 romove/ drwxrwxr-x 2 root kontrolor 4096 2011-05-25 15:38 slovani/
anotatori# lla total 24 drwxr-xr-x 6 root root 4096 2011-06-03 14:47 ./ drwxr-xr-x 5 root root 4096 2011-06-03 15:43 ../ drwxr-xr-x 9 root root 4096 2011-06-03 19:00 cesi/ drwxr-xr-x 2 root root 4096 2011-06-03 14:47 neslovani/ drwxr-xr-x 2 root root 4096 2011-06-03 14:47 romove/ drwxr-xr-x 2 root root 4096 2011-06-03 14:47 slovani/ cesi# lla total 36 drwxr-xr-x 9 root root 4096 2011-06-03 19:00 ./ drwxr-xr-x 6 root root 4096 2011-06-03 14:47 ../ drwxrwx--- 2 root www-data 4096 2011-06-03 19:46 .files/ drwxr-xr-x 4 root root 4096 2011-06-03 14:30 Brtnova/ drwxr-xr-x 4 root root 4096 2011-06-03 18:59 Komrskova/ drwxr-xr-x 4 root root 4096 2011-06-03 18:59 Kukrechtova/ drwxr-xr-x 4 root root 4096 2011-06-03 18:59 Poncarova/ drwxr-xr-x 4 root root 4096 2011-06-03 18:59 Prchlikova/ drwxr-xr-x 4 root root 4096 2011-06-03 18:59 Vokacova/ Brtnova# lla total 16 drwxr-xr-x 4 root root 4096 2011-06-03 14:30 ./ drwxr-xr-x 9 root root 4096 2011-06-03 19:00 ../ drwxrwxr-x 2 root www-data 4096 2011-06-03 19:46 download/ drwxr-xr-x 2 brtnova anotator 4096 2011-06-03 19:45 upload/
Noví uživatelé a skupiny
Skupiny
kontrolor:x:10000:jhana anotator:x:10002:
Kontroloři
hrdlickova:x:10001:10000:Tereza Hrdlickova:/store/czesl:/usr/bin/scponly
Supervizoři
stindlova:x:10002:10002:Barbora Stindlova:/store/czesl/anotatori/neslovani:/usr/bin/scponly pierscieniak:x:10003:10002:Piotr Pawel Pierscieniak:/store/czesl/anotatori/slovani:/usr/bin/scponly bedrichova:x:10004:10002:Zuzanna Bedrichova:/store/czesl/anotatori/romove:/usr/bin/scponly hlavackova:x:10005:10002:Eva Hlavackova:/store/czesl/anotatori/cesi:/usr/bin/scponly
Vytvoření uživatele:
useradd -d /store/czesl/anotatori/neslovani -c "Barbora Stindlova" -g 10002 \ -M -s /usr/bin/scponly -u 10002 stindlova
Uživatel webu:
$ lla /var/www/html/anotatori/.files -rw-rw-r-- 1 skoumal apache 91 Jun 1 11:14 .skoumal $ cat /var/www/html/anotatori/.files/.skoumal 2a5a166d5d7fe042bd0d2e0f78ab9488:hana.skoumalova@ff.cuni.cz:/store/czesl/kontrolori/konvertovane/cesi