====== Práce pro Infrastrukturu ======
===== Adresa aplikace na hlášení práce =====

  * https://docs.google.com/spreadsheets/d/1jOCKLnmN_OSeNtl-UrYzkhKTzWVpAUjf7vYiLOMCPKU/edit#gid=0

===== SW nutný k tagování =====

Návody na instalaci a údržbu SW:

  * ''[[wiki:user:skoumal:infra:process_text_maintenance|process_text.sh]]''
  * ''[[wiki:user:skoumal:infra:tagger|tagger.sh]]''

===== Indexace do Kontextu (ukázáno na ortofon_mluv) =====

Nejdříve musíme vyrobit vertikálu s metadaty. K tomu slouží program ''vert2verttab.pl'':<code>
mkdir /cnk/common/korpus/vertikaly/ortofon_mluv
cd /cnk/work/jelinek
vert2verttab.pl vert-final > /cnk/common/korpus/vertikaly/ortofon_mluv/vertikala</code>

Potom vyrobíme ''registry'' pomocí administrace na adrese [[https://www.korpus.cz/admin]]. Nesmí se zapomenout nakonec ''registry'' uložit.

Korpus oindexujeme ve vlastním adresáři ''~/indexace'' na trnkovi:<code>
cd ~/indexace
rm data/*
rm *
index.sh ortofon_mluv</code>

**Následující krok byl zahrnut do skriptu ''index.sh''** \\
Nakonec hotové indexy zkopírujeme na standardní místo:<code>
mkdir /cnk/run/manatee/data/ortofon_mluv
rsync -avz data/* /cnk/run/manatee/data/ortofon_mluv/</code>

Přidání/výměna v Kontextu se uskuteční přes noc. Ještě je třeba požádat o přidání uživatelů.

Je-li potřeba, aby byl výsledek přístupný hned, je třeba přihlásit se na ''skaličku'' a provést tento příkaz:<code>
cd /var/opt/manatee/data
rsync -avz trnka:/var/opt/manatee/data/ortofon_mluv .</code>


===== Návody k výrobě korpusů =====

  * [[wiki:user:skoumal:infra:aranea|Aranea]]
  * [[wiki:user:skoumal:infra:syn|Korpusy SYN]]
  * [[wiki:user:skoumal:infra:net|Korpusy NET]]
  * [[wiki:user:skoumal:infra:vertikala|Výroba korpusů z vertikály s mark-upem]]
  * [[wiki:user:skoumal:infra:osoby|Jednorázové přidání osoby k V[pqs]]]
  * [[wiki:user:skoumal:infra:command-line|Spouštění příkazů z command-line]]
  * [[wiki:user:skoumal:infra:desamb|Program desamb]]
  * [[wiki:user:skoumal:infra:morfo-langr|Nová morfologie z MFF a LanGr]]
  * [[wiki:user:skoumal:Oral:ortofon-tagging|Ortofon]]
  * [[wiki:user:skoumal:infra:var-tagging|Variabilita]]
  * [[wiki:user:skoumal:infra:Dia:dia-tagging|Diachronici]]
  * [[wiki:user:skoumal:infra:morphodita|Příprava textů pro experimenty s MorphoDiTou]]

===== Přehledy prací na jednotlivých verzích korpusu =====

  * [[wiki:user:skoumal:infra:SYNv6]]
  * [[wiki:user:skoumal:infra:SYNv7]]
  * [[wiki:user:skoumal:infra:SYNv8]]
  * [[wiki:user:skoumal:infra:Etalon.v2020]]
  * [[wiki:user:skoumal:infra:SYN2020]]
  * [[wiki:user:skoumal:infra:Kolokace2020]]
  * [[wiki:user:skoumal:infra:SYNv9]]
  * [[wiki:user:skoumal:infra:SYNv10]]
  * [[wiki:user:skoumal:infra:SYNv11]]
  * [[wiki:user:skoumal:infra:SYNv14]]

===== FicTree =====

  * [[wiki:user:skoumal:infra:chyby|Soupis chyb]]

===== Zjišťování chybovosti textů =====

==== x-rate ====

Spočítá procento všech nenalezených forem a procento nenalezených forem s malým písmenem:<code>
by061222: 1.44%   634 1.05%   463   44006
by071130: 0.81%   201 0.61%   151   24513
by091228: 1.52%   481 1.24%   391   31526
db050104: 0.53%  1994 0.13%   496  370254
db050106: 0.61%  2325 0.15%   589  379006
db050108: 0.56%  2275 0.14%   594  402728
db050112: 0.53%  1972 0.13%   481  369393
db050114: 0.58%  1999 0.12%   415  344108
db050117: 0.55%  1759 0.13%   440  318603
db050120: 0.56%  2050 0.14%   515  365608
db050122: 0.59%  2264 0.14%   561  377723
db050125: 0.52%  1916 0.14%   546  366873</code>Pouští se takto:<code>
cd .../vert-morf
x-rate-vert.sh > ../NOTFOUND/x-rate.txt</code>

==== doc-x-rate ====

Vyhledává hodně chybové kousky souborů:<code>
by061222 1 (2--2664): 0.71%
by061222 2 (2665--3932): 0.07%
by061222 3 (3933--4934): 0.00%
by061222 4 (4935--5539): 0.16%
by061222 5 (5540--8555): 1.62%
by061222 6 (8556--8931): 2.38%
by061222 7 (8932--9641): 2.67%
by061222 8 (9642--10613): 1.95%
by061222 9 (10614--11031): 1.67%
by061222 10 (11032--11511): 2.07%</code>Pouští se takto:<code>
cd .../vert-morf
for ff in *; do echo $ff; doc-x-rate < $ff | perl -pe "s/^/$ff /" > ../doc-x-rate/$ff.txt; done</code>
Potom se setřídí<code>cd ../doc-x-rate
sort -nr -k4 * > ../doc-x-rate.srt.txt</code>Ručně se tento soubor sekne u 2 nebo 3% a vyrobí se z něj další soubor ''doc-x-rate.short.txt'', z něhož pak vyrobíme ''doc-x-rate.short.srt.txt'', který obsahuje jen názvy souborů a reverzně setříděná čísla doců<code>
cut -f1-2 -d" " doc-x-rate.short.txt | sort -k1,1 -k2,2nr > doc-x-rate.short.srt.txt</code>
Ošklivé kousky se pak vyházejí skriptem ''extract-bad.sh'':<code>
cd in-il2
extract-bad.sh ../doc-x-rate.short.srt.txt</code>Vyházené kousky jsou v adresáři ''./out''.

===== Skripty na doplňování chybějícího vidu =====

V adresáři ''/home/skoumal/bin/corp/PostDisambVid'' jsou skripty ''make-flex-I.pl'' a ''make-flex-P.pl''. Ze ''STDIN'' čtou seznam nedokonavých a dokonavých sloves a vyrábějí z nich kus flexového zdrojáku, který se pak vloží do ''11_OpravitVid.fl''.

===== Korpusy pro NoSketch =====

Adresáře:
  * ''/var/lib/manatee/registry''
  * ''/var/lib/manatee/data''
  * ''/var/www/bonito2''

Ve ''/var/lib/manatee/registry'' udělat link do ''/net/chomsky/store/manatee-registry'' a upravit ''/var/www/bonito2/run.cgi''.

===== MDA =====

  * [[wiki:user:skoumal:MDA:wide-tags|Generování našich tagů]]
  * [[wiki:user:skoumal:MDA:mda-tagging|Tagování textů pro MDA]]

===== Diachronici =====

  * [[wiki:user:skoumal:dia:tokenizace|Tokenizace pro 19. stol.]]