Wiki spuštěna 24. 7. 2025

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
wiki:user:skoumal:tacr23 [2025/08/20 15:52] – [Anotace Lemurem] skoumalwiki:user:skoumal:tacr23 [2025/09/12 13:24] (current) – [Anotace Lemurem] skoumal
Line 74: Line 74:
 </code>obvyklý postup anotace je<code> </code>obvyklý postup anotace je<code>
 mwe_tagger -b -i vert-rules0-frazrl-rules-mdita-sublm-agr -o mwe_out -t -n 100 [-c]</code>výstupní adresář musí existovat. mwe_tagger -b -i vert-rules0-frazrl-rules-mdita-sublm-agr -o mwe_out -t -n 100 [-c]</code>výstupní adresář musí existovat.
 +  * Pak ještě uložíme samotnou anotaci MWE:<code>cd mwe-out
 +for ff in *; do cut -f7- $ff > ../vert-9/$ff; done</code>
 ==== Vytvoření korpusu pro porovnání ==== ==== Vytvoření korpusu pro porovnání ====
  
Line 231: Line 233:
 vert2verttab.pl mwe-out | perl -pe 'undef $/; s/<s>\n([0-9]+)[^\n]+/<s id="$1">/g' > /cnk/common/korpus/vertikaly/assc-lemur/vertikala vert2verttab.pl mwe-out | perl -pe 'undef $/; s/<s>\n([0-9]+)[^\n]+/<s id="$1">/g' > /cnk/common/korpus/vertikaly/assc-lemur/vertikala
 </code> </code>
 +
 +===== syn2020lemur - korpus s prokliky =====
 +
 +  * Původní korpus od Pavla je v adresáři ''/cnk/work/utkl/Lemur''. Je tam ''vertikala.lemur'' a adresář ''vert-lemur'' s jednotlivými soubory.
 +  * My použijeme ''vertikala.lemur''.
 +  * Pracujeme v adresáři ''/cnk/work/skoumal/LEMUR/syn2020lemur'' (''/home/skoumal/cnk-work/LEMUR/syn2020lemur'').
 +  * Vyrobíme adresář ''docs'' a nasekáme do něj jednotlivé soubory z vertikály:<code>split-doc-xml.pl < ../vertikala.lemur</code>
 +  * Vyrobime adresář ''orig'' a soubory z ''docs'' do něj převedeme, aby co nejvíce připomínaly originální ''XML'' soubory. Zrušíme dělení na věty -- segmentaci uděláme znovu:<code>
 +parallel-filter.sh -C 'cut -f1 | perl -C -pe "undef $/; s/([^>])\n/\1 /g" | perl -C -pe "undef $/; s: <g/>\n::g" \
 +| perl -C -pe "s/ </\n</" | perl -C -pe "undef $/; s/([^>])\n<hi/\1 <hi/g" | perl -C -pe "undef $/; s/(<hi[^>]+>)\n/\1/g" \
 +| perl -C -pe "undef $/; s:\n(</hi>):\1:g" | perl -C -pe "undef $/; s:(</hi>)\n([^<]):\1 \2:g" \
 +| perl -C -pe "undef $/; s:\n</s>\n<s[^>]*>\n: :g" | perl -pe "undef $/; s:</?s[^>]*>\n::g"' -e -s. -t ../orig/ -p45 -v</code>
 +  * V adresáři ''orig'' máme ''XML'', na která můžeme pustit Vondřičkovy skripty.

QR Code
QR Code wiki:user:skoumal:tacr23 (generated for current page)