Table of Contents
Práce pro Infrastrukturu
Adresa aplikace na hlášení práce
SW nutný k tagování
Návody na instalaci a údržbu SW:
Indexace do Kontextu (ukázáno na ortofon_mluv)
Nejdříve musíme vyrobit vertikálu s metadaty. K tomu slouží program vert2verttab.pl
:
mkdir /cnk/common/korpus/vertikaly/ortofon_mluv cd /cnk/work/jelinek vert2verttab.pl vert-final > /cnk/common/korpus/vertikaly/ortofon_mluv/vertikala
Potom vyrobíme registry
pomocí administrace na adrese https://www.korpus.cz/admin. Nesmí se zapomenout nakonec registry
uložit.
Korpus oindexujeme ve vlastním adresáři ~/indexace
na trnkovi:
cd ~/indexace rm data/* rm * index.sh ortofon_mluv
Následující krok byl zahrnut do skriptu index.sh
Nakonec hotové indexy zkopírujeme na standardní místo:
mkdir /cnk/run/manatee/data/ortofon_mluv rsync -avz data/* /cnk/run/manatee/data/ortofon_mluv/
Přidání/výměna v Kontextu se uskuteční přes noc. Ještě je třeba požádat o přidání uživatelů.
Je-li potřeba, aby byl výsledek přístupný hned, je třeba přihlásit se na skaličku
a provést tento příkaz:
cd /var/opt/manatee/data rsync -avz trnka:/var/opt/manatee/data/ortofon_mluv .
Návody k výrobě korpusů
Přehledy prací na jednotlivých verzích korpusu
FicTree
Zjišťování chybovosti textů
x-rate
Spočítá procento všech nenalezených forem a procento nenalezených forem s malým písmenem:
by061222: 1.44% 634 1.05% 463 44006 by071130: 0.81% 201 0.61% 151 24513 by091228: 1.52% 481 1.24% 391 31526 db050104: 0.53% 1994 0.13% 496 370254 db050106: 0.61% 2325 0.15% 589 379006 db050108: 0.56% 2275 0.14% 594 402728 db050112: 0.53% 1972 0.13% 481 369393 db050114: 0.58% 1999 0.12% 415 344108 db050117: 0.55% 1759 0.13% 440 318603 db050120: 0.56% 2050 0.14% 515 365608 db050122: 0.59% 2264 0.14% 561 377723 db050125: 0.52% 1916 0.14% 546 366873
Pouští se takto:
cd .../vert-morf x-rate-vert.sh > ../NOTFOUND/x-rate.txt
doc-x-rate
Vyhledává hodně chybové kousky souborů:
by061222 1 (2--2664): 0.71% by061222 2 (2665--3932): 0.07% by061222 3 (3933--4934): 0.00% by061222 4 (4935--5539): 0.16% by061222 5 (5540--8555): 1.62% by061222 6 (8556--8931): 2.38% by061222 7 (8932--9641): 2.67% by061222 8 (9642--10613): 1.95% by061222 9 (10614--11031): 1.67% by061222 10 (11032--11511): 2.07%
Pouští se takto:
cd .../vert-morf for ff in *; do echo $ff; doc-x-rate < $ff | perl -pe "s/^/$ff /" > ../doc-x-rate/$ff.txt; done
Potom se setřídí
cd ../doc-x-rate sort -nr -k4 * > ../doc-x-rate.srt.txt
Ručně se tento soubor sekne u 2 nebo 3% a vyrobí se z něj další soubor doc-x-rate.short.txt
, z něhož pak vyrobíme doc-x-rate.short.srt.txt
, který obsahuje jen názvy souborů a reverzně setříděná čísla doců
cut -f1-2 -d" " doc-x-rate.short.txt | sort -k1,1 -k2,2nr > doc-x-rate.short.srt.txt
Ošklivé kousky se pak vyházejí skriptem extract-bad.sh
:
cd in-il2 extract-bad.sh ../doc-x-rate.short.srt.txt
Vyházené kousky jsou v adresáři ./out
.
Skripty na doplňování chybějícího vidu
V adresáři /home/skoumal/bin/corp/PostDisambVid
jsou skripty make-flex-I.pl
a make-flex-P.pl
. Ze STDIN
čtou seznam nedokonavých a dokonavých sloves a vyrábějí z nich kus flexového zdrojáku, který se pak vloží do 11_OpravitVid.fl
.
Korpusy pro NoSketch
Adresáře:
/var/lib/manatee/registry
/var/lib/manatee/data
/var/www/bonito2
Ve /var/lib/manatee/registry
udělat link do /net/chomsky/store/manatee-registry
a upravit /var/www/bonito2/run.cgi
.