| Both sides previous revisionPrevious revisionNext revision | Previous revision |
| wiki:user:skoumal:infra:process_text_run [2025/10/07 15:03] – [Výroba vlastních korpusů] skoumal | wiki:user:skoumal:infra:process_text_run [2025/12/10 11:15] (current) – [Výroba vlastních korpusů] skoumal |
|---|
| for ff in *; do no_space_after_token_morphanal.pl ../in-utf8/$ff /dev/null < $ff > /dev/null; done</code>nebo paralelně:<code> | for ff in *; do no_space_after_token_morphanal.pl ../in-utf8/$ff /dev/null < $ff > /dev/null; done</code>nebo paralelně:<code> |
| cd vert-prislovi-kolok | cd vert-prislovi-kolok |
| ls | parallel -j45 "no_space_after_token_morphanal.pl ../in-utf8/{} /dev/null < {} > /dev/null"</code> | ls -S | parallel -j45 "no_space_after_token_morphanal.pl ../in-utf8/{} /dev/null < {} > /dev/null"</code> |
| |
| ===== Opravy chybějících nebo vadných souborů ===== | ===== Opravy chybějících nebo vadných souborů ===== |
| |
| * Příprava souborů pro vlastní korpus:<code>cd .../vert-corr | * Příprava souborů pro vlastní korpus:<code>cd .../vert-corr |
| parallel-mask.sh -C "standoff2xml -c ../../../LEMUR/ann2standoff.ini -p frantalemur" -m ".*\.txt$" -v -p45 -d.</code>s FRANTOU:<code> | parallel-mask.sh -C "standoff2xml -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p frantalemur" -m ".*\.txt$" -v -p45 -d.</code>nebo bez frazémů:<code> |
| for ff in *.ann.xml; do gg=${ff%.ann.xml}.txt; xml2vrt -c ../../../LEMUR/ann2standoff.ini -p cnk2020lemur -P none $ff | perl -pe "s/^(<doc) .*>$/\1 id=\"$gg\">/"; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala | parallel-mask.sh -C "standoff2xml -p cnk2020" -m ".*\.txt$" -v -p100 -d.</code> |
| </code>s FRANTOU a Lemurem:<code>for ff in *.ann.xml; do gg=${ff%.ann.xml}.txt; xml2vrt -c ../../../LEMUR/ann2standoff.ini -p frantalemur $ff | perl -pe "s/^(<doc) .*>$/\1 id=\"$gg\">/"; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala | * Příprava XML souborů |
| </code> | * bez frazémů:<code>for ff in *.ann.xml; do gg=${ff%.ann.xml}.txt; xml2vrt -p cnk2020 $ff | perl -pe "s/^(<doc) .*>$/\1 id=\"$gg\">/"; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala</code>nebo jsou-li správné hlavičky už nachystané<code>for ff in *.ann.xml; do xml2vrt -p cnk2020 $ff; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala</code>anebo paralelně jenom pro kontrolu<code> |
| | ls -S *.ann.xml | parallel -j100 "xml2vrt -p cnk2020 {} > /dev/null"</code> |
| | * s FRANTOU:<code>for ff in *.ann.xml; do gg=${ff%.ann.xml}.txt; xml2vrt -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p franta $ff | perl -pe "s/^(<doc) .*>$/\1 id=\"$gg\">/"; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala</code>nebo jsou-li správné hlavičky už nachystané<code>for ff in *.ann.xml; do xml2vrt -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p franta $ff; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala</code>anebo paralelně jenom pro kontrolu<code> |
| | ls -S *.ann.xml | parallel -j100 "xml2vrt -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p franta {} > /dev/null"</code> |
| | * s LEMURem:<code>for ff in *.ann.xml; do gg=${ff%.ann.xml}.txt; xml2vrt -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p lemur $ff | perl -pe "s/^(<doc) .*>$/\1 id=\"$gg\">/"; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala</code>nebo jsou-li správné hlavičky už nachystané<code>for ff in *.ann.xml; do xml2vrt -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p lemur $ff; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala</code>anebo paralelně jenom pro kontrolu<code> |
| | ls -S *.ann.xml | parallel -j100 "xml2vrt -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p lemur {} > /dev/null"</code> |
| | * s FRANTOU a Lemurem:<code>for ff in *.ann.xml; do gg=${ff%.ann.xml}.txt; xml2vrt -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p frantalemur $ff | perl -pe "s/^(<doc) .*>$/\1 id=\"$gg\">/"; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala |
| | </code>nebo jsou-li správné hlavičky už nachystané<code>for ff in *.ann.xml; do xml2vrt -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p frantalemur $ff; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala</code>anebo paralelně jenom pro kontrolu<code> |
| | ls -S *.ann.xml | parallel -j100 "xml2vrt -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p frantalemur {} > /dev/null"</code> |
| |
| |