====== Práce pro Infrastrukturu ====== ===== Adresa aplikace na hlášení práce ===== * https://docs.google.com/spreadsheets/d/1jOCKLnmN_OSeNtl-UrYzkhKTzWVpAUjf7vYiLOMCPKU/edit#gid=0 ===== SW nutný k tagování ===== Návody na instalaci a údržbu SW: * ''[[wiki:user:skoumal:infra:process_text_maintenance|process_text.sh]]'' * ''[[wiki:user:skoumal:infra:tagger|tagger.sh]]'' ===== Indexace do Kontextu (ukázáno na ortofon_mluv) ===== Nejdříve musíme vyrobit vertikálu s metadaty. K tomu slouží program ''vert2verttab.pl'': mkdir /cnk/common/korpus/vertikaly/ortofon_mluv cd /cnk/work/jelinek vert2verttab.pl vert-final > /cnk/common/korpus/vertikaly/ortofon_mluv/vertikala Potom vyrobíme ''registry'' pomocí administrace na adrese [[https://www.korpus.cz/admin]]. Nesmí se zapomenout nakonec ''registry'' uložit. Korpus oindexujeme ve vlastním adresáři ''~/indexace'' na trnkovi: cd ~/indexace rm data/* rm * index.sh ortofon_mluv **Následující krok byl zahrnut do skriptu ''index.sh''** \\ Nakonec hotové indexy zkopírujeme na standardní místo: mkdir /cnk/run/manatee/data/ortofon_mluv rsync -avz data/* /cnk/run/manatee/data/ortofon_mluv/ Přidání/výměna v Kontextu se uskuteční přes noc. Ještě je třeba požádat o přidání uživatelů. Je-li potřeba, aby byl výsledek přístupný hned, je třeba přihlásit se na ''skaličku'' a provést tento příkaz: cd /var/opt/manatee/data rsync -avz trnka:/var/opt/manatee/data/ortofon_mluv . ===== Návody k výrobě korpusů ===== * [[wiki:user:skoumal:infra:aranea|Aranea]] * [[wiki:user:skoumal:infra:syn|Korpusy SYN]] * [[wiki:user:skoumal:infra:net|Korpusy NET]] * [[wiki:user:skoumal:infra:vertikala|Výroba korpusů z vertikály s mark-upem]] * [[wiki:user:skoumal:infra:osoby|Jednorázové přidání osoby k V[pqs]]] * [[wiki:user:skoumal:infra:command-line|Spouštění příkazů z command-line]] * [[wiki:user:skoumal:infra:desamb|Program desamb]] * [[wiki:user:skoumal:infra:morfo-langr|Nová morfologie z MFF a LanGr]] * [[wiki:user:skoumal:Oral:ortofon-tagging|Ortofon]] * [[wiki:user:skoumal:infra:var-tagging|Variabilita]] * [[wiki:user:skoumal:infra:Dia:dia-tagging|Diachronici]] * [[wiki:user:skoumal:infra:morphodita|Příprava textů pro experimenty s MorphoDiTou]] ===== Přehledy prací na jednotlivých verzích korpusu ===== * [[wiki:user:skoumal:infra:SYNv6]] * [[wiki:user:skoumal:infra:SYNv7]] * [[wiki:user:skoumal:infra:SYNv8]] * [[wiki:user:skoumal:infra:Etalon.v2020]] * [[wiki:user:skoumal:infra:SYN2020]] * [[wiki:user:skoumal:infra:Kolokace2020]] * [[wiki:user:skoumal:infra:SYNv9]] * [[wiki:user:skoumal:infra:SYNv10]] * [[wiki:user:skoumal:infra:SYNv11]] ===== FicTree ===== * [[wiki:user:skoumal:infra:chyby|Soupis chyb]] ===== Zjišťování chybovosti textů ===== ==== x-rate ==== Spočítá procento všech nenalezených forem a procento nenalezených forem s malým písmenem: by061222: 1.44% 634 1.05% 463 44006 by071130: 0.81% 201 0.61% 151 24513 by091228: 1.52% 481 1.24% 391 31526 db050104: 0.53% 1994 0.13% 496 370254 db050106: 0.61% 2325 0.15% 589 379006 db050108: 0.56% 2275 0.14% 594 402728 db050112: 0.53% 1972 0.13% 481 369393 db050114: 0.58% 1999 0.12% 415 344108 db050117: 0.55% 1759 0.13% 440 318603 db050120: 0.56% 2050 0.14% 515 365608 db050122: 0.59% 2264 0.14% 561 377723 db050125: 0.52% 1916 0.14% 546 366873Pouští se takto: cd .../vert-morf x-rate-vert.sh > ../NOTFOUND/x-rate.txt ==== doc-x-rate ==== Vyhledává hodně chybové kousky souborů: by061222 1 (2--2664): 0.71% by061222 2 (2665--3932): 0.07% by061222 3 (3933--4934): 0.00% by061222 4 (4935--5539): 0.16% by061222 5 (5540--8555): 1.62% by061222 6 (8556--8931): 2.38% by061222 7 (8932--9641): 2.67% by061222 8 (9642--10613): 1.95% by061222 9 (10614--11031): 1.67% by061222 10 (11032--11511): 2.07%Pouští se takto: cd .../vert-morf for ff in *; do echo $ff; doc-x-rate < $ff | perl -pe "s/^/$ff /" > ../doc-x-rate/$ff.txt; done Potom se setřídícd ../doc-x-rate sort -nr -k4 * > ../doc-x-rate.srt.txtRučně se tento soubor sekne u 2 nebo 3% a vyrobí se z něj další soubor ''doc-x-rate.short.txt'', z něhož pak vyrobíme ''doc-x-rate.short.srt.txt'', který obsahuje jen názvy souborů a reverzně setříděná čísla doců cut -f1-2 -d" " doc-x-rate.short.txt | sort -k1,1 -k2,2nr > doc-x-rate.short.srt.txt Ošklivé kousky se pak vyházejí skriptem ''extract-bad.sh'': cd in-il2 extract-bad.sh ../doc-x-rate.short.srt.txtVyházené kousky jsou v adresáři ''./out''. ===== Skripty na doplňování chybějícího vidu ===== V adresáři ''/home/skoumal/bin/corp/PostDisambVid'' jsou skripty ''make-flex-I.pl'' a ''make-flex-P.pl''. Ze ''STDIN'' čtou seznam nedokonavých a dokonavých sloves a vyrábějí z nich kus flexového zdrojáku, který se pak vloží do ''11_OpravitVid.fl''. ===== Korpusy pro NoSketch ===== Adresáře: * ''/var/lib/manatee/registry'' * ''/var/lib/manatee/data'' * ''/var/www/bonito2'' Ve ''/var/lib/manatee/registry'' udělat link do ''/net/chomsky/store/manatee-registry'' a upravit ''/var/www/bonito2/run.cgi''. ===== MDA ===== * [[wiki:user:skoumal:MDA:wide-tags|Generování našich tagů]] * [[wiki:user:skoumal:MDA:mda-tagging|Tagování textů pro MDA]] ===== Diachronici ===== * [[wiki:user:skoumal:dia:tokenizace|Tokenizace pro 19. stol.]]