Wiki spuštěna 24. 7. 2025

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
wiki:user:skoumal:infra:process_text_run [2025/12/19 16:23] – [Odstranění XML značek] skoumalwiki:user:skoumal:infra:process_text_run [2026/01/02 01:56] (current) – [Kolokace pomocí LEMURu] skoumal
Line 74: Line 74:
  
 ===== Syntax ===== ===== Syntax =====
 +
 +===== Kolokace pomocí LEMURu =====
 +
 +  * Provede se tagování až do fáze ''vert-rules0-frazrl-rules-mdita-sublm-agr''.
 +  * Potom se spustí anotace LEMURem:<code>cd <korpus>
 +mwe_tagger -i vert-rules0-frazrl-rules-mdita-sublm-agr/ -o mwe_out-prod -m /cnk/work/skoumal/LEMUR/model-251220-prod.msgpack -n 100 -b -t</code>
 +  * Spojí se se syntaktickou anotací:<code>combine-mwe-synt.sh -p 100 -s vert-synt/ -v</code>Výsledek je v adresáři ''vert-mwe-synt''.
 +  * Pokud jsou zapotřebí opravy, provedou se teď:<code>mkdir -p vert-mwe-synt-corr
 +cd /cnk/work/lovelace/mwe_corr
 +ls ~/cnk-work/INFRA/SYNv14/SYN2025/vert-mwe-synt | parallel -j100 "echo {}; ./Fix_MWE_in_vert_with_syntax.pl < ~/cnk-work/INFRA/SYNv14/SYN2025/vert-mwe-synt/{} | ./Odfiltruj_prazdne_tabulatory.pl > ~/cnk-work/INFRA/SYNv14/SYN2025/vert-mwe-synt-corr/{}"</code>(akorát že to nefunguje).
 +  * Bez syntaktické anotace se použje skript ''check-mwe-corpus.sh'':
 +    * soubory s kolokacemi zkopírují do adresáře ''vert-mwe-prod-corr'' jako ''.vrt''
 +  * Se syntaxí:<code>cd vert-mwe-synt-corr
 +rsync -avz ../vert-mwe-synt/*.vrt .
 +cd ..
 +finish-mwe-synt-corpus.sh -p120 -v</code>
  
  
Line 125: Line 141:
 parallel-filter.sh -C "check-vert-tag-v2020.pl" -n -s vert-rules0-frazrl-rules -p80</code>Nebo po tagování:<code> parallel-filter.sh -C "check-vert-tag-v2020.pl" -n -s vert-rules0-frazrl-rules -p80</code>Nebo po tagování:<code>
 parallel-filter.sh -C "check-vert-tag-v2020.pl -t -l21" -n -s vert-rules0-frazrl-rules-mdita-correct -p80</code>Nebo na úplném konci:<code> parallel-filter.sh -C "check-vert-tag-v2020.pl -t -l21" -n -s vert-rules0-frazrl-rules-mdita-correct -p80</code>Nebo na úplném konci:<code>
-parallel-filter.sh -C "check-vert-tag-v2020.pl -c5 -k -t -V" -n -s vert-rules0-frazrl-rules-mdita-[kolok-]sublm-agr -p45</code>+parallel-filter.sh -C "check-vert-tag-v2020.pl -c5 -k -t -V" -n -s vert-rules0-frazrl-rules-mdita-[kolok-]sublm-agr -p45</code>Tagujeme-li LEMUREM, použijeme přepínač ''-w'' místo ''-k'':<code> 
 +parallel-filter.sh -C "check-vert-tag-v2020.pl -c5 -w -t -V" -n -s vert-rules0-frazrl-rules-mdita-[kolok-]sublm-agr -p45</code>
   * Pro kontrolu úplnosti souborů potřebujeme adresář **''in-utf8''**:<code>cd vert-prislovi-kolok   * Pro kontrolu úplnosti souborů potřebujeme adresář **''in-utf8''**:<code>cd vert-prislovi-kolok
 for ff in *; do no_space_after_token_morphanal.pl ../in-utf8/$ff /dev/null < $ff > /dev/null; done</code>nebo paralelně:<code> for ff in *; do no_space_after_token_morphanal.pl ../in-utf8/$ff /dev/null < $ff > /dev/null; done</code>nebo paralelně:<code>

QR Code
QR Code wiki:user:skoumal:infra:process_text_run (generated for current page)