| Both sides previous revisionPrevious revisionNext revision | Previous revision |
| wiki:user:skoumal:infra:process_text_run [2025/12/10 11:15] – [Výroba vlastních korpusů] skoumal | wiki:user:skoumal:infra:process_text_run [2026/01/02 01:56] (current) – [Kolokace pomocí LEMURu] skoumal |
|---|
| * Původní ''XML'' soubory jsou umístěny v adresáři ''orig''. Žádné odstraňování url a e-mailů neprovádíme. | * Původní ''XML'' soubory jsou umístěny v adresáři ''orig''. Žádné odstraňování url a e-mailů neprovádíme. |
| * Použijeme Vondřičkův script:<code>cd orig | * Použijeme Vondřičkův script:<code>cd orig |
| for ff in *.xml; do echo $ff; xml2standoff $ff; done</code>anebo paralelně<code> | for ff in *.xml; do echo $ff; xml2standoff -p cnk2020 -t head,p,text $ff; done</code>anebo paralelně<code> |
| parallel-mask.sh -C xml2standoff -d . -m ".*\.xml$" -p45 -v</code> | parallel-mask.sh -C "xml2standoff -p cnk2020 -t head,p,text" -d . -m ".*\.xml$" -p45 -v</code> |
| * Holé texty ''.txt'' zkopírujeme do adresáře ''in-utf8''. | * Holé texty ''.txt'' zkopírujeme do adresáře ''in-utf8''. |
| |
| |
| ===== Syntax ===== | ===== Syntax ===== |
| | |
| | ===== Kolokace pomocí LEMURu ===== |
| | |
| | * Provede se tagování až do fáze ''vert-rules0-frazrl-rules-mdita-sublm-agr''. |
| | * Potom se spustí anotace LEMURem:<code>cd <korpus> |
| | mwe_tagger -i vert-rules0-frazrl-rules-mdita-sublm-agr/ -o mwe_out-prod -m /cnk/work/skoumal/LEMUR/model-251220-prod.msgpack -n 100 -b -t</code> |
| | * Spojí se se syntaktickou anotací:<code>combine-mwe-synt.sh -p 100 -s vert-synt/ -v</code>Výsledek je v adresáři ''vert-mwe-synt''. |
| | * Pokud jsou zapotřebí opravy, provedou se teď:<code>mkdir -p vert-mwe-synt-corr |
| | cd /cnk/work/lovelace/mwe_corr |
| | ls ~/cnk-work/INFRA/SYNv14/SYN2025/vert-mwe-synt | parallel -j100 "echo {}; ./Fix_MWE_in_vert_with_syntax.pl < ~/cnk-work/INFRA/SYNv14/SYN2025/vert-mwe-synt/{} | ./Odfiltruj_prazdne_tabulatory.pl > ~/cnk-work/INFRA/SYNv14/SYN2025/vert-mwe-synt-corr/{}"</code>(akorát že to nefunguje). |
| | * Bez syntaktické anotace se použje skript ''check-mwe-corpus.sh'': |
| | * soubory s kolokacemi zkopírují do adresáře ''vert-mwe-prod-corr'' jako ''.vrt'' |
| | * Se syntaxí:<code>cd vert-mwe-synt-corr |
| | rsync -avz ../vert-mwe-synt/*.vrt . |
| | cd .. |
| | finish-mwe-synt-corpus.sh -p120 -v</code> |
| |
| |
| parallel-filter.sh -C "check-vert-tag-v2020.pl" -n -s vert-rules0-frazrl-rules -p80</code>Nebo po tagování:<code> | parallel-filter.sh -C "check-vert-tag-v2020.pl" -n -s vert-rules0-frazrl-rules -p80</code>Nebo po tagování:<code> |
| parallel-filter.sh -C "check-vert-tag-v2020.pl -t -l21" -n -s vert-rules0-frazrl-rules-mdita-correct -p80</code>Nebo na úplném konci:<code> | parallel-filter.sh -C "check-vert-tag-v2020.pl -t -l21" -n -s vert-rules0-frazrl-rules-mdita-correct -p80</code>Nebo na úplném konci:<code> |
| parallel-filter.sh -C "check-vert-tag-v2020.pl -c5 -k -t -V" -n -s vert-rules0-frazrl-rules-mdita-[kolok-]sublm-agr -p45</code> | parallel-filter.sh -C "check-vert-tag-v2020.pl -c5 -k -t -V" -n -s vert-rules0-frazrl-rules-mdita-[kolok-]sublm-agr -p45</code>Tagujeme-li LEMUREM, použijeme přepínač ''-w'' místo ''-k'':<code> |
| | parallel-filter.sh -C "check-vert-tag-v2020.pl -c5 -w -t -V" -n -s vert-rules0-frazrl-rules-mdita-[kolok-]sublm-agr -p45</code> |
| * Pro kontrolu úplnosti souborů potřebujeme adresář **''in-utf8''**:<code>cd vert-prislovi-kolok | * Pro kontrolu úplnosti souborů potřebujeme adresář **''in-utf8''**:<code>cd vert-prislovi-kolok |
| for ff in *; do no_space_after_token_morphanal.pl ../in-utf8/$ff /dev/null < $ff > /dev/null; done</code>nebo paralelně:<code> | for ff in *; do no_space_after_token_morphanal.pl ../in-utf8/$ff /dev/null < $ff > /dev/null; done</code>nebo paralelně:<code> |