| Both sides previous revisionPrevious revisionNext revision | Previous revision |
| wiki:user:skoumal:infra:process_text_run [2025/12/21 01:00] – [Syntax] skoumal | wiki:user:skoumal:infra:process_text_run [2026/01/02 01:56] (current) – [Kolokace pomocí LEMURu] skoumal |
|---|
| cd /cnk/work/lovelace/mwe_corr | cd /cnk/work/lovelace/mwe_corr |
| ls ~/cnk-work/INFRA/SYNv14/SYN2025/vert-mwe-synt | parallel -j100 "echo {}; ./Fix_MWE_in_vert_with_syntax.pl < ~/cnk-work/INFRA/SYNv14/SYN2025/vert-mwe-synt/{} | ./Odfiltruj_prazdne_tabulatory.pl > ~/cnk-work/INFRA/SYNv14/SYN2025/vert-mwe-synt-corr/{}"</code>(akorát že to nefunguje). | ls ~/cnk-work/INFRA/SYNv14/SYN2025/vert-mwe-synt | parallel -j100 "echo {}; ./Fix_MWE_in_vert_with_syntax.pl < ~/cnk-work/INFRA/SYNv14/SYN2025/vert-mwe-synt/{} | ./Odfiltruj_prazdne_tabulatory.pl > ~/cnk-work/INFRA/SYNv14/SYN2025/vert-mwe-synt-corr/{}"</code>(akorát že to nefunguje). |
| * | * Bez syntaktické anotace se použje skript ''check-mwe-corpus.sh'': |
| | * soubory s kolokacemi zkopírují do adresáře ''vert-mwe-prod-corr'' jako ''.vrt'' |
| | * Se syntaxí:<code>cd vert-mwe-synt-corr |
| | rsync -avz ../vert-mwe-synt/*.vrt . |
| | cd .. |
| | finish-mwe-synt-corpus.sh -p120 -v</code> |
| |
| |
| parallel-filter.sh -C "check-vert-tag-v2020.pl" -n -s vert-rules0-frazrl-rules -p80</code>Nebo po tagování:<code> | parallel-filter.sh -C "check-vert-tag-v2020.pl" -n -s vert-rules0-frazrl-rules -p80</code>Nebo po tagování:<code> |
| parallel-filter.sh -C "check-vert-tag-v2020.pl -t -l21" -n -s vert-rules0-frazrl-rules-mdita-correct -p80</code>Nebo na úplném konci:<code> | parallel-filter.sh -C "check-vert-tag-v2020.pl -t -l21" -n -s vert-rules0-frazrl-rules-mdita-correct -p80</code>Nebo na úplném konci:<code> |
| parallel-filter.sh -C "check-vert-tag-v2020.pl -c5 -k -t -V" -n -s vert-rules0-frazrl-rules-mdita-[kolok-]sublm-agr -p45</code> | parallel-filter.sh -C "check-vert-tag-v2020.pl -c5 -k -t -V" -n -s vert-rules0-frazrl-rules-mdita-[kolok-]sublm-agr -p45</code>Tagujeme-li LEMUREM, použijeme přepínač ''-w'' místo ''-k'':<code> |
| | parallel-filter.sh -C "check-vert-tag-v2020.pl -c5 -w -t -V" -n -s vert-rules0-frazrl-rules-mdita-[kolok-]sublm-agr -p45</code> |
| * Pro kontrolu úplnosti souborů potřebujeme adresář **''in-utf8''**:<code>cd vert-prislovi-kolok | * Pro kontrolu úplnosti souborů potřebujeme adresář **''in-utf8''**:<code>cd vert-prislovi-kolok |
| for ff in *; do no_space_after_token_morphanal.pl ../in-utf8/$ff /dev/null < $ff > /dev/null; done</code>nebo paralelně:<code> | for ff in *; do no_space_after_token_morphanal.pl ../in-utf8/$ff /dev/null < $ff > /dev/null; done</code>nebo paralelně:<code> |