Wiki spuštěna 24. 7. 2025

Práce pro Infrastrukturu

Adresa aplikace na hlášení práce

SW nutný k tagování

Návody na instalaci a údržbu SW:

Indexace do Kontextu (ukázáno na ortofon_mluv)

Nejdříve musíme vyrobit vertikálu s metadaty. K tomu slouží program vert2verttab.pl:

mkdir /cnk/common/korpus/vertikaly/ortofon_mluv
cd /cnk/work/jelinek
vert2verttab.pl vert-final > /cnk/common/korpus/vertikaly/ortofon_mluv/vertikala

Potom vyrobíme registry pomocí administrace na adrese https://www.korpus.cz/admin. Nesmí se zapomenout nakonec registry uložit.

Korpus oindexujeme ve vlastním adresáři ~/indexace na trnkovi:

cd ~/indexace
rm data/*
rm *
index.sh ortofon_mluv

Následující krok byl zahrnut do skriptu index.sh
Nakonec hotové indexy zkopírujeme na standardní místo:

mkdir /cnk/run/manatee/data/ortofon_mluv
rsync -avz data/* /cnk/run/manatee/data/ortofon_mluv/

Přidání/výměna v Kontextu se uskuteční přes noc. Ještě je třeba požádat o přidání uživatelů.

Je-li potřeba, aby byl výsledek přístupný hned, je třeba přihlásit se na skaličku a provést tento příkaz:

cd /var/opt/manatee/data
rsync -avz trnka:/var/opt/manatee/data/ortofon_mluv .

Přehledy prací na jednotlivých verzích korpusu

FicTree

Zjišťování chybovosti textů

x-rate

Spočítá procento všech nenalezených forem a procento nenalezených forem s malým písmenem:

by061222: 1.44%   634 1.05%   463   44006
by071130: 0.81%   201 0.61%   151   24513
by091228: 1.52%   481 1.24%   391   31526
db050104: 0.53%  1994 0.13%   496  370254
db050106: 0.61%  2325 0.15%   589  379006
db050108: 0.56%  2275 0.14%   594  402728
db050112: 0.53%  1972 0.13%   481  369393
db050114: 0.58%  1999 0.12%   415  344108
db050117: 0.55%  1759 0.13%   440  318603
db050120: 0.56%  2050 0.14%   515  365608
db050122: 0.59%  2264 0.14%   561  377723
db050125: 0.52%  1916 0.14%   546  366873

Pouští se takto:

cd .../vert-morf
x-rate-vert.sh > ../NOTFOUND/x-rate.txt

doc-x-rate

Vyhledává hodně chybové kousky souborů:

by061222 1 (2--2664): 0.71%
by061222 2 (2665--3932): 0.07%
by061222 3 (3933--4934): 0.00%
by061222 4 (4935--5539): 0.16%
by061222 5 (5540--8555): 1.62%
by061222 6 (8556--8931): 2.38%
by061222 7 (8932--9641): 2.67%
by061222 8 (9642--10613): 1.95%
by061222 9 (10614--11031): 1.67%
by061222 10 (11032--11511): 2.07%

Pouští se takto:

cd .../vert-morf
for ff in *; do echo $ff; doc-x-rate < $ff | perl -pe "s/^/$ff /" > ../doc-x-rate/$ff.txt; done

Potom se setřídí

cd ../doc-x-rate
sort -nr -k4 * > ../doc-x-rate.srt.txt

Ručně se tento soubor sekne u 2 nebo 3% a vyrobí se z něj další soubor doc-x-rate.short.txt, z něhož pak vyrobíme doc-x-rate.short.srt.txt, který obsahuje jen názvy souborů a reverzně setříděná čísla doců

cut -f1-2 -d" " doc-x-rate.short.txt | sort -k1,1 -k2,2nr > doc-x-rate.short.srt.txt

Ošklivé kousky se pak vyházejí skriptem extract-bad.sh:

cd in-il2
extract-bad.sh ../doc-x-rate.short.srt.txt

Vyházené kousky jsou v adresáři ./out.

Skripty na doplňování chybějícího vidu

V adresáři /home/skoumal/bin/corp/PostDisambVid jsou skripty make-flex-I.pl a make-flex-P.pl. Ze STDIN čtou seznam nedokonavých a dokonavých sloves a vyrábějí z nich kus flexového zdrojáku, který se pak vloží do 11_OpravitVid.fl.

Korpusy pro NoSketch

Adresáře:

  • /var/lib/manatee/registry
  • /var/lib/manatee/data
  • /var/www/bonito2

Ve /var/lib/manatee/registry udělat link do /net/chomsky/store/manatee-registry a upravit /var/www/bonito2/run.cgi.

MDA

Diachronici


QR Code
QR Code wiki:user:skoumal:infra (generated for current page)