| Both sides previous revisionPrevious revisionNext revision | Previous revision |
| wiki:user:skoumal:infra:process_text_run [2025/12/08 13:34] – [Závěrečné kontroly] skoumal | wiki:user:skoumal:infra:process_text_run [2025/12/10 11:15] (current) – [Výroba vlastních korpusů] skoumal |
|---|
| |
| * Příprava souborů pro vlastní korpus:<code>cd .../vert-corr | * Příprava souborů pro vlastní korpus:<code>cd .../vert-corr |
| parallel-mask.sh -C "standoff2xml -c ../../../LEMUR/ann2standoff.ini -p frantalemur" -m ".*\.txt$" -v -p45 -d.</code>nebo bez frazémů:<code> | parallel-mask.sh -C "standoff2xml -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p frantalemur" -m ".*\.txt$" -v -p45 -d.</code>nebo bez frazémů:<code> |
| parallel-mask.sh -C "standoff2xml -p cnk2020lemur" -m ".*\.txt$" -v -p100 -d.</code> | parallel-mask.sh -C "standoff2xml -p cnk2020" -m ".*\.txt$" -v -p100 -d.</code> |
| * Příprava XML souborů | * Příprava XML souborů |
| * bez frazémů:<code>for ff in *.ann.xml; do gg=${ff%.ann.xml}.txt; xml2vrt -p cnk2020 $ff | perl -pe "s/^(<doc) .*>$/\1 id=\"$gg\">/"; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala</code>nebo jsou-li správné hlavičky už nachystané<code>for ff in *.ann.xml; do xml2vrt -p cnk2020 $ff; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala</code> | * bez frazémů:<code>for ff in *.ann.xml; do gg=${ff%.ann.xml}.txt; xml2vrt -p cnk2020 $ff | perl -pe "s/^(<doc) .*>$/\1 id=\"$gg\">/"; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala</code>nebo jsou-li správné hlavičky už nachystané<code>for ff in *.ann.xml; do xml2vrt -p cnk2020 $ff; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala</code>anebo paralelně jenom pro kontrolu<code> |
| * s FRANTOU:<code>for ff in *.ann.xml; do gg=${ff%.ann.xml}.txt; xml2vrt -c ../../../LEMUR/ann2standoff.ini -p cnk2020lemur $ff | perl -pe "s/^(<doc) .*>$/\1 id=\"$gg\">/"; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala</code>nebo jsou-li správné hlavičky už nachystané<code>for ff in *.ann.xml; do xml2vrt -c ../../../LEMUR/ann2standoff.ini -p cnk2020lemur $ff; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala</code> | ls -S *.ann.xml | parallel -j100 "xml2vrt -p cnk2020 {} > /dev/null"</code> |
| * s LEMURem:<code>for ff in *.ann.xml; do gg=${ff%.ann.xml}.txt; xml2vrt -c ../../../LEMUR/ann2standoff.ini -p lemur $ff | perl -pe "s/^(<doc) .*>$/\1 id=\"$gg\">/"; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala</code>nebo jsou-li správné hlavičky už nachystané<code>for ff in *.ann.xml; do xml2vrt -c ../../../LEMUR/ann2standoff.ini -p lemur $ff; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala</code> | * s FRANTOU:<code>for ff in *.ann.xml; do gg=${ff%.ann.xml}.txt; xml2vrt -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p franta $ff | perl -pe "s/^(<doc) .*>$/\1 id=\"$gg\">/"; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala</code>nebo jsou-li správné hlavičky už nachystané<code>for ff in *.ann.xml; do xml2vrt -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p franta $ff; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala</code>anebo paralelně jenom pro kontrolu<code> |
| * s FRANTOU a Lemurem:<code>for ff in *.ann.xml; do gg=${ff%.ann.xml}.txt; xml2vrt -c ../../../LEMUR/ann2standoff.ini -p frantalemur $ff | perl -pe "s/^(<doc) .*>$/\1 id=\"$gg\">/"; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala | ls -S *.ann.xml | parallel -j100 "xml2vrt -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p franta {} > /dev/null"</code> |
| </code>nebo jsou-li správné hlavičky už nachystané<code>for ff in *.ann.xml; do xml2vrt -c ../../../LEMUR/ann2standoff.ini -p frantalemur $ff; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala</code> | * s LEMURem:<code>for ff in *.ann.xml; do gg=${ff%.ann.xml}.txt; xml2vrt -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p lemur $ff | perl -pe "s/^(<doc) .*>$/\1 id=\"$gg\">/"; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala</code>nebo jsou-li správné hlavičky už nachystané<code>for ff in *.ann.xml; do xml2vrt -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p lemur $ff; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala</code>anebo paralelně jenom pro kontrolu<code> |
| | ls -S *.ann.xml | parallel -j100 "xml2vrt -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p lemur {} > /dev/null"</code> |
| | * s FRANTOU a Lemurem:<code>for ff in *.ann.xml; do gg=${ff%.ann.xml}.txt; xml2vrt -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p frantalemur $ff | perl -pe "s/^(<doc) .*>$/\1 id=\"$gg\">/"; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala |
| | </code>nebo jsou-li správné hlavičky už nachystané<code>for ff in *.ann.xml; do xml2vrt -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p frantalemur $ff; done > /cnk/common/korpus/vertikaly/<korpus>/vertikala</code>anebo paralelně jenom pro kontrolu<code> |
| | ls -S *.ann.xml | parallel -j100 "xml2vrt -c /cnk/work/skoumal/LEMUR/ann2standoff.ini -p frantalemur {} > /dev/null"</code> |
| |
| |