Wiki spuštěna 24. 7. 2025

Přidání osoby do SYNv4

  • Má obsahovat desambiguaci a frazémy
  • PostDisambVid-utf-csts je už opraven i pro budoucí tagování
  • Postižené korpusy jsou v těchto podadresářích:
    • NEWTON
    • SYN2015-RC3
    • SYNv4
  • Provede se znovu
    make-whole-corp-csts.sh -t corr -Eucs2 -M -v -p40
  • Protože se mohlo hnout s řádky, je třeba znovu udělat frazémy:
    screen make-kolok-csts.sh -Eucs2 -k. -p40 -v
  • Dále se postupuje podle návodu na SYN:
    • Udělá vertikála v adresáři vert-kolok-corr:
      parallel-filter.sh -C csts2cnk.pl -s csts-kolok -t vert-kolok-corr -p40 -v
    • V adresáři vert-kolok-CNK se soubory přejmenují na .vrt, zkopírují se k nim soubory z adresáře orig a provede se kontrola:
      for ff in *.txt; do echo $ff; cp -p $ff ../vert-kolok-CNK/${ff%.txt}.vrt; done
      cd ../vert-kolok-CNK
      for ff in *.vrt; do ln -s ../orig/${ff%.vrt}.txt .; done
      for ff in *.vrt; do ln -s ../orig/${ff%.vrt}.json .; done
      parallel-mask.sh -C "/usr/local/corp/xml2standoff/vrt2standoff.py" -m ".*\.vrt" -v -p40 -d.
    • Prošlé soubory se zkopírují do adresáře vert-kolok-CNK-vrt:
      for ff in *.vrt.json; do mv ${ff%.vrt.json}.* ../vert-kolok-CNK-vrt; done
    • Vyrobí se seznam ../json.txt a tary:
      ls *.json | grep -v vrt.json > ../json.txt
      tar czvhf ../SYN2015-SYN-person-txt.tgz *.txt
      tar czvhf ../SYN2015-SYN-person-vrt.tgz *.vrt
      tar czvhf ../SYN2015-SYN-person-vrt.json.tgz *.vrt.json
      tar czvhf ../SYN2015-SYN-person-json.tgz -T ../json.txt

Přidání osoby a vidu do Etalonu

  • Sjet z vertikály celou disambiguaci (bez PreMorfo a PostMorfo)
  • vyrobit adresář vert-prac a do něj dát:
    • ručně otagované soubory (bez &doc;)
    • třetí sloupec z úplné disambiguace ($ff-3)
    • slepené 4 sloupce:
      for ff in *-3; do paste ${ff%-3} $ff > ${ff%-3}.1-4; done
  • Zkontrolovat počet řádků:
     tail -n3 *.1-4
  • Provést náhradu a odlepení:
    for ff in *.1-4; do echo $ff; perl -pe 's/^[\t ]+$//' $ff \
    | perl -pe 's/(\tV[psq].....)-([^\t]+\tV[psq].....)([1-3])/$1$3$2$3/' \
    | perl -pe 's/(\tV[^\t]+)(\tV.+)([BIP])$/$1$3/' \
    | cut -f1-3 \
    | perl -pe 's/(\t.{15})$/$1-/' > ${ff%.1-4}.1-3; done

QR Code
QR Code wiki:user:skoumal:infra:osoby (generated for current page)