====== Přidání osoby do SYNv4 ======
* Má obsahovat desambiguaci a frazémy
* PostDisambVid-utf-csts je už opraven i pro budoucí tagování
* Postižené korpusy jsou v těchto podadresářích:
* ''NEWTON''
* ''SYN2015-RC3''
* ''SYNv4''
* Provede se znovu make-whole-corp-csts.sh -t corr -Eucs2 -M -v -p40
* Protože se mohlo hnout s řádky, je třeba znovu udělat frazémy:screen make-kolok-csts.sh -Eucs2 -k. -p40 -v
* Dále se postupuje podle návodu na SYN:
* Udělá vertikála v adresáři ''vert-kolok-corr'':
parallel-filter.sh -C csts2cnk.pl -s csts-kolok -t vert-kolok-corr -p40 -v
* V adresáři ''vert-kolok-CNK'' se soubory přejmenují na ''.vrt'', zkopírují se k nim soubory z adresáře ''orig'' a provede se kontrola:
for ff in *.txt; do echo $ff; cp -p $ff ../vert-kolok-CNK/${ff%.txt}.vrt; done
cd ../vert-kolok-CNK
for ff in *.vrt; do ln -s ../orig/${ff%.vrt}.txt .; done
for ff in *.vrt; do ln -s ../orig/${ff%.vrt}.json .; done
parallel-mask.sh -C "/usr/local/corp/xml2standoff/vrt2standoff.py" -m ".*\.vrt" -v -p40 -d.
* Prošlé soubory se zkopírují do adresáře ''vert-kolok-CNK-vrt'':
for ff in *.vrt.json; do mv ${ff%.vrt.json}.* ../vert-kolok-CNK-vrt; done
* Vyrobí se seznam ''../json.txt'' a tary:
ls *.json | grep -v vrt.json > ../json.txt
tar czvhf ../SYN2015-SYN-person-txt.tgz *.txt
tar czvhf ../SYN2015-SYN-person-vrt.tgz *.vrt
tar czvhf ../SYN2015-SYN-person-vrt.json.tgz *.vrt.json
tar czvhf ../SYN2015-SYN-person-json.tgz -T ../json.txt
====== Přidání osoby a vidu do Etalonu ======
* Sjet z vertikály celou disambiguaci (bez PreMorfo a PostMorfo)
* vyrobit adresář ''vert-prac'' a do něj dát:
* ručně otagované soubory (bez ''&doc;'')
* třetí sloupec z úplné disambiguace (''$ff-3'')
* slepené 4 sloupce:
for ff in *-3; do paste ${ff%-3} $ff > ${ff%-3}.1-4; done
* Zkontrolovat počet řádků: tail -n3 *.1-4
* Provést náhradu a odlepení:
for ff in *.1-4; do echo $ff; perl -pe 's/^[\t ]+$//' $ff \
| perl -pe 's/(\tV[psq].....)-([^\t]+\tV[psq].....)([1-3])/$1$3$2$3/' \
| perl -pe 's/(\tV[^\t]+)(\tV.+)([BIP])$/$1$3/' \
| cut -f1-3 \
| perl -pe 's/(\t.{15})$/$1-/' > ${ff%.1-4}.1-3; done