Wiki spuštěna 24. 7. 2025

Práce na korpusu SYNv8

  • frozen: 201910

Korpusy

NEWTON

  • Velikost: 164.975 souborů, 16 GB
  • Tagování: grimm, 45 CPU, cca 76 hod.
  • Kolokace: grimm, 45 CPU, cca 210 hod.
  • Převedeno do vert-kolok-CNK-vrt, zbývá udělat korpus a hledat chyby v něm
  • V tmp/in-utf8 jsou soubory, které neprošly. Na nich se otestují opravy
  • Korpus je hotový, jmenuje se SYNv8-NEWTON-kolok-1 a SYNv8-NEWTON-kolok-2
  • Odesláno:
    • NEWTON-1.[a-l].vrt.json.tgz
    • NEWTON-1.vrt.tgz
    • NEWTON-2.vrt.json.tgz
    • NEWTON-2.vrt.tgz
    • NEWTON.a-h.txt.tgz
    • NEWTON.a-h.json.tgz
    • NEWTON.i-p.txt.tgz
    • NEWTON.i-p.json.tgz
    • NEWTON.r-z.txt.tgz
    • NEWTON.r-z.json.tgz

NEWTON2015

  • Velikost: 6.302 souborů, 1,5 GB
  • Tagování: grimm(?), 45(?) CPU, cca 7 hod.
  • Kolokace: jakobson, 6 CPU, cca 85,5 hod.
  • Převedeno do vert-kolok-CNK-vrt
  • Hotový korpus se jmenuje SYNv8-NEWTON2015-kolok
  • Odesláno:
    • NEWTON2015.json.tgz
    • NEWTON2015.txt.tgz
    • NEWTON2015.vrt.json.tgz
    • NEWTON2015.vrt.tgz

NEWTON2016

  • Velikost: 6.207 souborů, 1,4 GB
  • Tagování: grimm(?), 45(?) CPU, cca 6,5 hod.
  • Kolokace: chomsky, 6 CPU, cca 102 hod.
  • Chyba: « a » změněno na $1 – opraveno
  • Odesláno:
    • NEWTON2016.json.tgz
    • NEWTON2016.txt.tgz
    • NEWTON2016.vrt.json.tgz
    • NEWTON2016.vrt.tgz

NEWTON2017

  • Velikost: 6.191 souborů, 1,2 GB
  • Tagování: grimm(?), 45(?) CPU, cca 5,5 hod.
  • Kolokace: chomsky, 6 CPU, cca 88 hod.
  • Odesláno:
    • NEWTON2017.json.tgz
    • NEWTON2017.txt.tgz
    • NEWTON2017.vrt.json.tgz
    • NEWTON2017.vrt.tgz

NEWTON2018

  • Velikost: 9.975 souborů, 1,7 GB
  • Tagování: grimm(?), 45(?) CPU, cca 8 hod.
  • Kolokace: jakobson, 6 CPU, cca 101,5 hod.
  • Odesláno:
    • NEWTON2018.json.tgz
    • NEWTON2018.txt.tgz
    • NEWTON2018.vrt.json.tgz
    • NEWTON2018.vrt.tgz

SYN2015

  • Velikost: 3.376 souborů, 703 MB
  • Tagování: ???, ??? CPU, cca 15,5 hod.
  • Kolokace: ???, ??? CPU, cca 43,5 hod.
  • Odesláno:
    • SYN2015.json.tgz
    • SYN2015.txt.tgz
    • SYN2015.vrt.json.tgz
    • SYN2015.vrt.tgz

SYNv4

  • Velikost: 49.901 souborů, 16 GB
  • Tagování: grimm, 45 CPU, cca 74 hod.
  • Kolokace: grimm, 45 CPU, cca 194 hod.
  • Převedeno do vert-kolok-CNK-vrt
  • Hotový korpus se jmenuje SYNv8-SYNv4-kolok-1 a SYNv8-SYNv4-kolok-2
  • Odesláno:
    • SYNv4-1.vrt.json.tgz
    • SYNv4-1.vrt.tgz
    • SYNv4-2.vrt.json.tgz
    • SYNv4-2.vrt.tgz
    • SYNv4.json.tgz
    • SYNv4.txt.tgz

Dodatečné opravy

  • Co nebylo uděláno ručně, je ve dvou skriptech:
    emergency/bin/multi-line-corr.pl
    emergency/bin/single-line-corr.pl
  • Tyto skripty jsou přidány do frozen. Jde hlavně o vokativy, chybně označená obouvidá slovesa, přechodníky a chyby se vším tím spojené.

Tagování

  • RR–5
  • NN——–N
  • Xx
  • katě
  • vorvani

Kolokace

  • navrh_huj…
  • Augiáš

Na závěr předělat všechny .vrt.json!


QR Code
QR Code wiki:user:skoumal:infra:synv8 (generated for current page)