====== Přidání osoby do SYNv4 ====== * Má obsahovat desambiguaci a frazémy * PostDisambVid-utf-csts je už opraven i pro budoucí tagování * Postižené korpusy jsou v těchto podadresářích: * ''NEWTON'' * ''SYN2015-RC3'' * ''SYNv4'' * Provede se znovu make-whole-corp-csts.sh -t corr -Eucs2 -M -v -p40 * Protože se mohlo hnout s řádky, je třeba znovu udělat frazémy:screen make-kolok-csts.sh -Eucs2 -k. -p40 -v * Dále se postupuje podle návodu na SYN: * Udělá vertikála v adresáři ''vert-kolok-corr'': parallel-filter.sh -C csts2cnk.pl -s csts-kolok -t vert-kolok-corr -p40 -v * V adresáři ''vert-kolok-CNK'' se soubory přejmenují na ''.vrt'', zkopírují se k nim soubory z adresáře ''orig'' a provede se kontrola: for ff in *.txt; do echo $ff; cp -p $ff ../vert-kolok-CNK/${ff%.txt}.vrt; done cd ../vert-kolok-CNK for ff in *.vrt; do ln -s ../orig/${ff%.vrt}.txt .; done for ff in *.vrt; do ln -s ../orig/${ff%.vrt}.json .; done parallel-mask.sh -C "/usr/local/corp/xml2standoff/vrt2standoff.py" -m ".*\.vrt" -v -p40 -d. * Prošlé soubory se zkopírují do adresáře ''vert-kolok-CNK-vrt'': for ff in *.vrt.json; do mv ${ff%.vrt.json}.* ../vert-kolok-CNK-vrt; done * Vyrobí se seznam ''../json.txt'' a tary: ls *.json | grep -v vrt.json > ../json.txt tar czvhf ../SYN2015-SYN-person-txt.tgz *.txt tar czvhf ../SYN2015-SYN-person-vrt.tgz *.vrt tar czvhf ../SYN2015-SYN-person-vrt.json.tgz *.vrt.json tar czvhf ../SYN2015-SYN-person-json.tgz -T ../json.txt ====== Přidání osoby a vidu do Etalonu ====== * Sjet z vertikály celou disambiguaci (bez PreMorfo a PostMorfo) * vyrobit adresář ''vert-prac'' a do něj dát: * ručně otagované soubory (bez ''&doc;'') * třetí sloupec z úplné disambiguace (''$ff-3'') * slepené 4 sloupce: for ff in *-3; do paste ${ff%-3} $ff > ${ff%-3}.1-4; done * Zkontrolovat počet řádků: tail -n3 *.1-4 * Provést náhradu a odlepení: for ff in *.1-4; do echo $ff; perl -pe 's/^[\t ]+$//' $ff \ | perl -pe 's/(\tV[psq].....)-([^\t]+\tV[psq].....)([1-3])/$1$3$2$3/' \ | perl -pe 's/(\tV[^\t]+)(\tV.+)([BIP])$/$1$3/' \ | cut -f1-3 \ | perl -pe 's/(\t.{15})$/$1-/' > ${ff%.1-4}.1-3; done