Wiki spuštěna 24. 7. 2025

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
wiki:user:skoumal:infra:process_text_run [2025/11/26 15:25] – [Výroba vlastních korpusů] skoumalwiki:user:skoumal:infra:process_text_run [2025/12/10 11:15] (current) – [Výroba vlastních korpusů] skoumal
Line 129: Line 129:
 for ff in *; do no_space_after_token_morphanal.pl ../in-utf8/$ff /dev/null < $ff > /dev/null; done</code>nebo paralelně:<code> for ff in *; do no_space_after_token_morphanal.pl ../in-utf8/$ff /dev/null < $ff > /dev/null; done</code>nebo paralelně:<code>
 cd vert-prislovi-kolok cd vert-prislovi-kolok
-ls | parallel -j45 "no_space_after_token_morphanal.pl ../in-utf8/{} /dev/null < {} > /dev/null"</code>+ls -S | parallel -j45 "no_space_after_token_morphanal.pl ../in-utf8/{} /dev/null < {} > /dev/null"</code>
  
 ===== Opravy chybějících nebo vadných souborů ===== ===== Opravy chybějících nebo vadných souborů =====
Line 185: Line 185:
  
   * Příprava souborů pro vlastní korpus:<code>cd .../vert-corr   * Příprava souborů pro vlastní korpus:<code>cd .../vert-corr
-parallel-mask.sh -C "standoff2xml -c ../../../LEMUR/ann2standoff.ini -p frantalemur" -m ".*\.txt$" -v -p45 -d.</code>nebo bez frazémů:<code> +parallel-mask.sh -C "standoff2xml -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p frantalemur" -m ".*\.txt$" -v -p45 -d.</code>nebo bez frazémů:<code> 
-parallel-mask.sh -C "standoff2xml -p cnk2020lemur" -m ".*\.txt$" -v -p100 -d.</code>anebo s FRANTOU:<code> +parallel-mask.sh -C "standoff2xml -p cnk2020" -m ".*\.txt$" -v -p100 -d.</code> 
-for ff in *.ann.xml; do gg=${ff%.ann.xml}.txt; xml2vrt -c ../../../LEMUR/ann2standoff.ini -p cnk2020lemur -P none $ff | perl -pe "s/^(<doc) .*>$/\1 id=\"$gg\">/"; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala +  * Příprava XML souborů 
-</code>s FRANTOU a Lemurem:<code>for ff in *.ann.xml; do gg=${ff%.ann.xml}.txt; xml2vrt -c ../../../LEMUR/ann2standoff.ini -p frantalemur $ff | perl -pe "s/^(<doc) .*>$/\1 id=\"$gg\">/"; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala +    * bez frazémů:<code>for ff in *.ann.xml; do gg=${ff%.ann.xml}.txt; xml2vrt -p cnk2020 $ff | perl -pe "s/^(<doc) .*>$/\1 id=\"$gg\">/"; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala</code>nebo jsou-li správné hlavičky už nachystané<code>for ff in *.ann.xml; do xml2vrt -p cnk2020 $ff; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala</code>anebo paralelně jenom pro kontrolu<code> 
-</code>+ls -S *.ann.xml | parallel -j100 "xml2vrt -p cnk2020 {} > /dev/null"</code> 
 +    * s FRANTOU:<code>for ff in *.ann.xml; do gg=${ff%.ann.xml}.txt; xml2vrt -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p franta $ff | perl -pe "s/^(<doc) .*>$/\1 id=\"$gg\">/"; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala</code>nebo jsou-li správné hlavičky už nachystané<code>for ff in *.ann.xml; do xml2vrt -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p franta $ff; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala</code>anebo paralelně jenom pro kontrolu<code> 
 +ls -S *.ann.xml | parallel -j100 "xml2vrt -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p franta {} > /dev/null"</code> 
 +    * s LEMURem:<code>for ff in *.ann.xml; do gg=${ff%.ann.xml}.txt; xml2vrt -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p lemur $ff | perl -pe "s/^(<doc) .*>$/\1 id=\"$gg\">/"; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala</code>nebo jsou-li správné hlavičky už nachystané<code>for ff in *.ann.xml; do xml2vrt -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p lemur $ff; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala</code>anebo paralelně jenom pro kontrolu<code> 
 +ls -S *.ann.xml | parallel -j100 "xml2vrt -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p lemur {} > /dev/null"</code> 
 +    * s FRANTOU a Lemurem:<code>for ff in *.ann.xml; do gg=${ff%.ann.xml}.txt; xml2vrt -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p frantalemur $ff | perl -pe "s/^(<doc) .*>$/\1 id=\"$gg\">/"; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala 
 +</code>nebo jsou-li správné hlavičky už nachystané<code>for ff in *.ann.xml; do xml2vrt -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p frantalemur $ff; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala</code>anebo paralelně jenom pro kontrolu<code> 
 +ls -S *.ann.xml | parallel -j100 "xml2vrt -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p frantalemur {} > /dev/null"</code>
  
  

QR Code
QR Code wiki:user:skoumal:infra:process_text_run (generated for current page)