Wiki spuštěna 24. 7. 2025

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
wiki:user:skoumal:infra:process_text_run [2024/12/02 15:39] – created - external edit 127.0.0.1wiki:user:skoumal:infra:process_text_run [2026/01/02 01:56] (current) – [Kolokace pomocí LEMURu] skoumal
Line 47: Line 47:
   * Původní ''XML'' soubory jsou umístěny v adresáři ''orig''. Žádné odstraňování url a e-mailů neprovádíme.   * Původní ''XML'' soubory jsou umístěny v adresáři ''orig''. Žádné odstraňování url a e-mailů neprovádíme.
   * Použijeme Vondřičkův script:<code>cd orig   * Použijeme Vondřičkův script:<code>cd orig
-for ff in *.xml; do echo $ff; xml2standoff $ff; done</code>anebo paralelně<code> +for ff in *.xml; do echo $ff; xml2standoff -p cnk2020 -t head,p,text $ff; done</code>anebo paralelně<code> 
-parallel-mask.sh -C xml2standoff -d . -m ".*\.xml$" -p45 -v</code>+parallel-mask.sh -C "xml2standoff -p cnk2020 -t head,p,text" -d . -m ".*\.xml$" -p45 -v</code>
   * Holé texty ''.txt'' zkopírujeme do adresáře ''in-utf8''.   * Holé texty ''.txt'' zkopírujeme do adresáře ''in-utf8''.
  
Line 74: Line 74:
  
 ===== Syntax ===== ===== Syntax =====
 +
 +===== Kolokace pomocí LEMURu =====
 +
 +  * Provede se tagování až do fáze ''vert-rules0-frazrl-rules-mdita-sublm-agr''.
 +  * Potom se spustí anotace LEMURem:<code>cd <korpus>
 +mwe_tagger -i vert-rules0-frazrl-rules-mdita-sublm-agr/ -o mwe_out-prod -m /cnk/work/skoumal/LEMUR/model-251220-prod.msgpack -n 100 -b -t</code>
 +  * Spojí se se syntaktickou anotací:<code>combine-mwe-synt.sh -p 100 -s vert-synt/ -v</code>Výsledek je v adresáři ''vert-mwe-synt''.
 +  * Pokud jsou zapotřebí opravy, provedou se teď:<code>mkdir -p vert-mwe-synt-corr
 +cd /cnk/work/lovelace/mwe_corr
 +ls ~/cnk-work/INFRA/SYNv14/SYN2025/vert-mwe-synt | parallel -j100 "echo {}; ./Fix_MWE_in_vert_with_syntax.pl < ~/cnk-work/INFRA/SYNv14/SYN2025/vert-mwe-synt/{} | ./Odfiltruj_prazdne_tabulatory.pl > ~/cnk-work/INFRA/SYNv14/SYN2025/vert-mwe-synt-corr/{}"</code>(akorát že to nefunguje).
 +  * Bez syntaktické anotace se použje skript ''check-mwe-corpus.sh'':
 +    * soubory s kolokacemi zkopírují do adresáře ''vert-mwe-prod-corr'' jako ''.vrt''
 +  * Se syntaxí:<code>cd vert-mwe-synt-corr
 +rsync -avz ../vert-mwe-synt/*.vrt .
 +cd ..
 +finish-mwe-synt-corpus.sh -p120 -v</code>
  
  
Line 125: Line 141:
 parallel-filter.sh -C "check-vert-tag-v2020.pl" -n -s vert-rules0-frazrl-rules -p80</code>Nebo po tagování:<code> parallel-filter.sh -C "check-vert-tag-v2020.pl" -n -s vert-rules0-frazrl-rules -p80</code>Nebo po tagování:<code>
 parallel-filter.sh -C "check-vert-tag-v2020.pl -t -l21" -n -s vert-rules0-frazrl-rules-mdita-correct -p80</code>Nebo na úplném konci:<code> parallel-filter.sh -C "check-vert-tag-v2020.pl -t -l21" -n -s vert-rules0-frazrl-rules-mdita-correct -p80</code>Nebo na úplném konci:<code>
-parallel-filter.sh -C "check-vert-tag-v2020.pl -c5 -k -t -V" -n -s vert-rules0-frazrl-rules-mdita-[kolok-]sublm-agr -p45</code>+parallel-filter.sh -C "check-vert-tag-v2020.pl -c5 -k -t -V" -n -s vert-rules0-frazrl-rules-mdita-[kolok-]sublm-agr -p45</code>Tagujeme-li LEMUREM, použijeme přepínač ''-w'' místo ''-k'':<code> 
 +parallel-filter.sh -C "check-vert-tag-v2020.pl -c5 -w -t -V" -n -s vert-rules0-frazrl-rules-mdita-[kolok-]sublm-agr -p45</code>
   * Pro kontrolu úplnosti souborů potřebujeme adresář **''in-utf8''**:<code>cd vert-prislovi-kolok   * Pro kontrolu úplnosti souborů potřebujeme adresář **''in-utf8''**:<code>cd vert-prislovi-kolok
 for ff in *; do no_space_after_token_morphanal.pl ../in-utf8/$ff /dev/null < $ff > /dev/null; done</code>nebo paralelně:<code> for ff in *; do no_space_after_token_morphanal.pl ../in-utf8/$ff /dev/null < $ff > /dev/null; done</code>nebo paralelně:<code>
 cd vert-prislovi-kolok cd vert-prislovi-kolok
-ls | parallel -j45 "no_space_after_token_morphanal.pl ../in-utf8/{} /dev/null < {} > /dev/null"</code>+ls -S | parallel -j45 "no_space_after_token_morphanal.pl ../in-utf8/{} /dev/null < {} > /dev/null"</code>
  
 ===== Opravy chybějících nebo vadných souborů ===== ===== Opravy chybějících nebo vadných souborů =====
Line 185: Line 202:
  
   * Příprava souborů pro vlastní korpus:<code>cd .../vert-corr   * Příprava souborů pro vlastní korpus:<code>cd .../vert-corr
-parallel-mask.sh -C "standoff2xml" -m ".*\.txt$" -v -p45 -d.</code>s FRANTOU:<code> +parallel-mask.sh -C "standoff2xml -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p frantalemur" -m ".*\.txt$" -v -p45 -d.</code>nebo bez frazémů:<code> 
-for ff in *.ann.xml; do gg=${ff%.ann.xml}.txt; xml2vrt -../../../Frazeologie/ann2standoff.ini -p cnk2020lemur $ff | perl -pe "s/^(<doc) .*>$/\1 id=\"$gg\">/"; done > /cnk/common/korpus/vertikaly/NEWTON2023/vertikala +parallel-mask.sh -C "standoff2xml -p cnk2020" -m ".*\.txt$" -v -p100 -d.</code> 
-</code>FRANTOU a Lemurem:<code>for ff in *.ann.xml; do gg=${ff%.ann.xml}.txt; xml2vrt -c ../../../Frazeologie/ann2standoff.ini -p frantalemur $ff | perl -pe "s/^(<doc) .*>$/\1 id=\"$gg\">/"; done > /cnk/common/korpus/vertikaly/NEWTON2023/vertikala +  * Příprava XML souborů 
-</code>+    * bez frazémů:<code>for ff in *.ann.xml; do gg=${ff%.ann.xml}.txt; xml2vrt -p cnk2020 $ff | perl -pe "s/^(<doc) .*>$/\1 id=\"$gg\">/"; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala</code>nebo jsou-li správné hlavičky už nachystané<code>for ff in *.ann.xml; do xml2vrt -p cnk2020 $ff; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala</code>anebo paralelně jenom pro kontrolu<code> 
 +ls -S *.ann.xml | parallel -j100 "xml2vrt -p cnk2020 {} > /dev/null"</code> 
 +    * s FRANTOU:<code>for ff in *.ann.xml; do gg=${ff%.ann.xml}.txt; xml2vrt -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p franta $ff | perl -pe "s/^(<doc) .*>$/\1 id=\"$gg\">/"; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala</code>nebo jsou-li správné hlavičky už nachystané<code>for ff in *.ann.xml; do xml2vrt -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p franta $ff; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala</code>anebo paralelně jenom pro kontrolu<code> 
 +ls -S *.ann.xml | parallel -j100 "xml2vrt -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p franta {} > /dev/null"</code> 
 +    * LEMURem:<code>for ff in *.ann.xml; do gg=${ff%.ann.xml}.txt; xml2vrt -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p lemur $ff | perl -pe "s/^(<doc) .*>$/\1 id=\"$gg\">/"; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala</code>nebo jsou-li správné hlavičky už nachystané<code>for ff in *.ann.xml; do xml2vrt -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p lemur $ff; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala</code>anebo paralelně jenom pro kontrolu<code> 
 +ls -S *.ann.xml | parallel -j100 "xml2vrt -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p lemur {} > /dev/null"</code> 
 +    * s FRANTOU a Lemurem:<code>for ff in *.ann.xml; do gg=${ff%.ann.xml}.txt; xml2vrt -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p frantalemur $ff | perl -pe "s/^(<doc) .*>$/\1 id=\"$gg\">/"; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala 
 +</code>nebo jsou-li správné hlavičky už nachystané<code>for ff in *.ann.xml; do xml2vrt -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p frantalemur $ff; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala</code>anebo paralelně jenom pro kontrolu<code> 
 +ls -S *.ann.xml | parallel -j100 "xml2vrt -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p frantalemur {} > /dev/null"</code>
  
  

QR Code
QR Code wiki:user:skoumal:infra:process_text_run (generated for current page)