Přidání osoby do SYNv4
- Má obsahovat desambiguaci a frazémy
- PostDisambVid-utf-csts je už opraven i pro budoucí tagování
- Postižené korpusy jsou v těchto podadresářích:
NEWTON
SYN2015-RC3
SYNv4
- Provede se znovu
make-whole-corp-csts.sh -t corr -Eucs2 -M -v -p40
- Protože se mohlo hnout s řádky, je třeba znovu udělat frazémy:
screen make-kolok-csts.sh -Eucs2 -k. -p40 -v
- Dále se postupuje podle návodu na SYN:
- Udělá vertikála v adresáři
vert-kolok-corr
:parallel-filter.sh -C csts2cnk.pl -s csts-kolok -t vert-kolok-corr -p40 -v
- V adresáři
vert-kolok-CNK
se soubory přejmenují na.vrt
, zkopírují se k nim soubory z adresářeorig
a provede se kontrola:for ff in *.txt; do echo $ff; cp -p $ff ../vert-kolok-CNK/${ff%.txt}.vrt; done cd ../vert-kolok-CNK for ff in *.vrt; do ln -s ../orig/${ff%.vrt}.txt .; done for ff in *.vrt; do ln -s ../orig/${ff%.vrt}.json .; done parallel-mask.sh -C "/usr/local/corp/xml2standoff/vrt2standoff.py" -m ".*\.vrt" -v -p40 -d.
- Prošlé soubory se zkopírují do adresáře
vert-kolok-CNK-vrt
:for ff in *.vrt.json; do mv ${ff%.vrt.json}.* ../vert-kolok-CNK-vrt; done
- Vyrobí se seznam
../json.txt
a tary:ls *.json | grep -v vrt.json > ../json.txt tar czvhf ../SYN2015-SYN-person-txt.tgz *.txt tar czvhf ../SYN2015-SYN-person-vrt.tgz *.vrt tar czvhf ../SYN2015-SYN-person-vrt.json.tgz *.vrt.json tar czvhf ../SYN2015-SYN-person-json.tgz -T ../json.txt
Přidání osoby a vidu do Etalonu
- Sjet z vertikály celou disambiguaci (bez PreMorfo a PostMorfo)
- vyrobit adresář
vert-prac
a do něj dát:- ručně otagované soubory (bez
&doc;
) - třetí sloupec z úplné disambiguace (
$ff-3
) - slepené 4 sloupce:
for ff in *-3; do paste ${ff%-3} $ff > ${ff%-3}.1-4; done
- Zkontrolovat počet řádků:
tail -n3 *.1-4
- Provést náhradu a odlepení:
for ff in *.1-4; do echo $ff; perl -pe 's/^[\t ]+$//' $ff \ | perl -pe 's/(\tV[psq].....)-([^\t]+\tV[psq].....)([1-3])/$1$3$2$3/' \ | perl -pe 's/(\tV[^\t]+)(\tV.+)([BIP])$/$1$3/' \ | cut -f1-3 \ | perl -pe 's/(\t.{15})$/$1-/' > ${ff%.1-4}.1-3; done