Table of Contents
Práce na korpusu SYNv8
frozen
: 201910
Korpusy
NEWTON
- Velikost: 164.975 souborů, 16 GB
- Tagování: grimm, 45 CPU, cca 76 hod.
- Kolokace: grimm, 45 CPU, cca 210 hod.
- Převedeno do
vert-kolok-CNK-vrt
, zbývá udělat korpus a hledat chyby v něm - V
tmp/in-utf8
jsou soubory, které neprošly. Na nich se otestují opravy - Korpus je hotový, jmenuje se
SYNv8-NEWTON-kolok-1
aSYNv8-NEWTON-kolok-2
- Odesláno:
- NEWTON-1.[a-l].vrt.json.tgz
- NEWTON-1.vrt.tgz
- NEWTON-2.vrt.json.tgz
- NEWTON-2.vrt.tgz
- NEWTON.a-h.txt.tgz
- NEWTON.a-h.json.tgz
- NEWTON.i-p.txt.tgz
- NEWTON.i-p.json.tgz
- NEWTON.r-z.txt.tgz
- NEWTON.r-z.json.tgz
NEWTON2015
- Velikost: 6.302 souborů, 1,5 GB
- Tagování: grimm(?), 45(?) CPU, cca 7 hod.
- Kolokace: jakobson, 6 CPU, cca 85,5 hod.
- Převedeno do
vert-kolok-CNK-vrt
- Hotový korpus se jmenuje
SYNv8-NEWTON2015-kolok
- Odesláno:
- NEWTON2015.json.tgz
- NEWTON2015.txt.tgz
- NEWTON2015.vrt.json.tgz
- NEWTON2015.vrt.tgz
NEWTON2016
- Velikost: 6.207 souborů, 1,4 GB
- Tagování: grimm(?), 45(?) CPU, cca 6,5 hod.
- Kolokace: chomsky, 6 CPU, cca 102 hod.
- Chyba:
«
a»
změněno na$1
– opraveno - Odesláno:
- NEWTON2016.json.tgz
- NEWTON2016.txt.tgz
- NEWTON2016.vrt.json.tgz
- NEWTON2016.vrt.tgz
NEWTON2017
- Velikost: 6.191 souborů, 1,2 GB
- Tagování: grimm(?), 45(?) CPU, cca 5,5 hod.
- Kolokace: chomsky, 6 CPU, cca 88 hod.
- Odesláno:
- NEWTON2017.json.tgz
- NEWTON2017.txt.tgz
- NEWTON2017.vrt.json.tgz
- NEWTON2017.vrt.tgz
NEWTON2018
- Velikost: 9.975 souborů, 1,7 GB
- Tagování: grimm(?), 45(?) CPU, cca 8 hod.
- Kolokace: jakobson, 6 CPU, cca 101,5 hod.
- Odesláno:
- NEWTON2018.json.tgz
- NEWTON2018.txt.tgz
- NEWTON2018.vrt.json.tgz
- NEWTON2018.vrt.tgz
SYN2015
- Velikost: 3.376 souborů, 703 MB
- Tagování: ???, ??? CPU, cca 15,5 hod.
- Kolokace: ???, ??? CPU, cca 43,5 hod.
- Odesláno:
- SYN2015.json.tgz
- SYN2015.txt.tgz
- SYN2015.vrt.json.tgz
- SYN2015.vrt.tgz
SYNv4
- Velikost: 49.901 souborů, 16 GB
- Tagování: grimm, 45 CPU, cca 74 hod.
- Kolokace: grimm, 45 CPU, cca 194 hod.
- Převedeno do
vert-kolok-CNK-vrt
- Hotový korpus se jmenuje
SYNv8-SYNv4-kolok-1
aSYNv8-SYNv4-kolok-2
- Odesláno:
- SYNv4-1.vrt.json.tgz
- SYNv4-1.vrt.tgz
- SYNv4-2.vrt.json.tgz
- SYNv4-2.vrt.tgz
- SYNv4.json.tgz
- SYNv4.txt.tgz
Dodatečné opravy
- Co nebylo uděláno ručně, je ve dvou skriptech:
emergency/bin/multi-line-corr.pl emergency/bin/single-line-corr.pl
- Tyto skripty jsou přidány do
frozen
. Jde hlavně o vokativy, chybně označená obouvidá slovesa, přechodníky a chyby se vším tím spojené.
Tagování
RR–5
NN——–N
Xx
- katě
- vorvani
Kolokace
navrh_huj…
Augiáš