====== Práce pro Infrastrukturu ======
===== Adresa aplikace na hlášení práce =====
* https://docs.google.com/spreadsheets/d/1jOCKLnmN_OSeNtl-UrYzkhKTzWVpAUjf7vYiLOMCPKU/edit#gid=0
===== SW nutný k tagování =====
Návody na instalaci a údržbu SW:
* ''[[wiki:user:skoumal:infra:process_text_maintenance|process_text.sh]]''
* ''[[wiki:user:skoumal:infra:tagger|tagger.sh]]''
===== Indexace do Kontextu (ukázáno na ortofon_mluv) =====
Nejdříve musíme vyrobit vertikálu s metadaty. K tomu slouží program ''vert2verttab.pl'':
mkdir /cnk/common/korpus/vertikaly/ortofon_mluv
cd /cnk/work/jelinek
vert2verttab.pl vert-final > /cnk/common/korpus/vertikaly/ortofon_mluv/vertikala
Potom vyrobíme ''registry'' pomocí administrace na adrese [[https://www.korpus.cz/admin]]. Nesmí se zapomenout nakonec ''registry'' uložit.
Korpus oindexujeme ve vlastním adresáři ''~/indexace'' na trnkovi:
cd ~/indexace
rm data/*
rm *
index.sh ortofon_mluv
**Následující krok byl zahrnut do skriptu ''index.sh''** \\
Nakonec hotové indexy zkopírujeme na standardní místo:
mkdir /cnk/run/manatee/data/ortofon_mluv
rsync -avz data/* /cnk/run/manatee/data/ortofon_mluv/
Přidání/výměna v Kontextu se uskuteční přes noc. Ještě je třeba požádat o přidání uživatelů.
Je-li potřeba, aby byl výsledek přístupný hned, je třeba přihlásit se na ''skaličku'' a provést tento příkaz:
cd /var/opt/manatee/data
rsync -avz trnka:/var/opt/manatee/data/ortofon_mluv .
===== Návody k výrobě korpusů =====
* [[wiki:user:skoumal:infra:aranea|Aranea]]
* [[wiki:user:skoumal:infra:syn|Korpusy SYN]]
* [[wiki:user:skoumal:infra:net|Korpusy NET]]
* [[wiki:user:skoumal:infra:vertikala|Výroba korpusů z vertikály s mark-upem]]
* [[wiki:user:skoumal:infra:osoby|Jednorázové přidání osoby k V[pqs]]]
* [[wiki:user:skoumal:infra:command-line|Spouštění příkazů z command-line]]
* [[wiki:user:skoumal:infra:desamb|Program desamb]]
* [[wiki:user:skoumal:infra:morfo-langr|Nová morfologie z MFF a LanGr]]
* [[wiki:user:skoumal:Oral:ortofon-tagging|Ortofon]]
* [[wiki:user:skoumal:infra:var-tagging|Variabilita]]
* [[wiki:user:skoumal:infra:Dia:dia-tagging|Diachronici]]
* [[wiki:user:skoumal:infra:morphodita|Příprava textů pro experimenty s MorphoDiTou]]
===== Přehledy prací na jednotlivých verzích korpusu =====
* [[wiki:user:skoumal:infra:SYNv6]]
* [[wiki:user:skoumal:infra:SYNv7]]
* [[wiki:user:skoumal:infra:SYNv8]]
* [[wiki:user:skoumal:infra:Etalon.v2020]]
* [[wiki:user:skoumal:infra:SYN2020]]
* [[wiki:user:skoumal:infra:Kolokace2020]]
* [[wiki:user:skoumal:infra:SYNv9]]
* [[wiki:user:skoumal:infra:SYNv10]]
* [[wiki:user:skoumal:infra:SYNv11]]
===== FicTree =====
* [[wiki:user:skoumal:infra:chyby|Soupis chyb]]
===== Zjišťování chybovosti textů =====
==== x-rate ====
Spočítá procento všech nenalezených forem a procento nenalezených forem s malým písmenem:
by061222: 1.44% 634 1.05% 463 44006
by071130: 0.81% 201 0.61% 151 24513
by091228: 1.52% 481 1.24% 391 31526
db050104: 0.53% 1994 0.13% 496 370254
db050106: 0.61% 2325 0.15% 589 379006
db050108: 0.56% 2275 0.14% 594 402728
db050112: 0.53% 1972 0.13% 481 369393
db050114: 0.58% 1999 0.12% 415 344108
db050117: 0.55% 1759 0.13% 440 318603
db050120: 0.56% 2050 0.14% 515 365608
db050122: 0.59% 2264 0.14% 561 377723
db050125: 0.52% 1916 0.14% 546 366873
Pouští se takto:
cd .../vert-morf
x-rate-vert.sh > ../NOTFOUND/x-rate.txt
==== doc-x-rate ====
Vyhledává hodně chybové kousky souborů:
by061222 1 (2--2664): 0.71%
by061222 2 (2665--3932): 0.07%
by061222 3 (3933--4934): 0.00%
by061222 4 (4935--5539): 0.16%
by061222 5 (5540--8555): 1.62%
by061222 6 (8556--8931): 2.38%
by061222 7 (8932--9641): 2.67%
by061222 8 (9642--10613): 1.95%
by061222 9 (10614--11031): 1.67%
by061222 10 (11032--11511): 2.07%
Pouští se takto:
cd .../vert-morf
for ff in *; do echo $ff; doc-x-rate < $ff | perl -pe "s/^/$ff /" > ../doc-x-rate/$ff.txt; done
Potom se setřídícd ../doc-x-rate
sort -nr -k4 * > ../doc-x-rate.srt.txt
Ručně se tento soubor sekne u 2 nebo 3% a vyrobí se z něj další soubor ''doc-x-rate.short.txt'', z něhož pak vyrobíme ''doc-x-rate.short.srt.txt'', který obsahuje jen názvy souborů a reverzně setříděná čísla doců
cut -f1-2 -d" " doc-x-rate.short.txt | sort -k1,1 -k2,2nr > doc-x-rate.short.srt.txt
Ošklivé kousky se pak vyházejí skriptem ''extract-bad.sh'':
cd in-il2
extract-bad.sh ../doc-x-rate.short.srt.txt
Vyházené kousky jsou v adresáři ''./out''.
===== Skripty na doplňování chybějícího vidu =====
V adresáři ''/home/skoumal/bin/corp/PostDisambVid'' jsou skripty ''make-flex-I.pl'' a ''make-flex-P.pl''. Ze ''STDIN'' čtou seznam nedokonavých a dokonavých sloves a vyrábějí z nich kus flexového zdrojáku, který se pak vloží do ''11_OpravitVid.fl''.
===== Korpusy pro NoSketch =====
Adresáře:
* ''/var/lib/manatee/registry''
* ''/var/lib/manatee/data''
* ''/var/www/bonito2''
Ve ''/var/lib/manatee/registry'' udělat link do ''/net/chomsky/store/manatee-registry'' a upravit ''/var/www/bonito2/run.cgi''.
===== MDA =====
* [[wiki:user:skoumal:MDA:wide-tags|Generování našich tagů]]
* [[wiki:user:skoumal:MDA:mda-tagging|Tagování textů pro MDA]]
===== Diachronici =====
* [[wiki:user:skoumal:dia:tokenizace|Tokenizace pro 19. stol.]]