====== Práce na korpusu SYNv8 ====== * ''frozen'': 201910 ===== Korpusy ===== ==== NEWTON ==== * Velikost: 164.975 souborů, 16 GB * Tagování: **grimm**, 45 CPU, cca 76 hod. * Kolokace: **grimm**, 45 CPU, cca 210 hod. * Převedeno do ''vert-kolok-CNK-vrt'', zbývá udělat korpus a hledat chyby v něm * V ''tmp/in-utf8'' jsou soubory, které neprošly. Na nich se otestují opravy * Korpus je hotový, jmenuje se ''SYNv8-NEWTON-kolok-1'' a ''SYNv8-NEWTON-kolok-2'' * Odesláno: * **NEWTON-1.[a-l].vrt.json.tgz** * **NEWTON-1.vrt.tgz** * **NEWTON-2.vrt.json.tgz** * **NEWTON-2.vrt.tgz** * **NEWTON.a-h.txt.tgz** * **NEWTON.a-h.json.tgz** * **NEWTON.i-p.txt.tgz** * **NEWTON.i-p.json.tgz** * **NEWTON.r-z.txt.tgz** * **NEWTON.r-z.json.tgz** ==== NEWTON2015 ==== * Velikost: 6.302 souborů, 1,5 GB * Tagování: **grimm**(?), 45(?) CPU, cca 7 hod. * Kolokace: ** jakobson**, 6 CPU, cca 85,5 hod. * Převedeno do ''vert-kolok-CNK-vrt'' * Hotový korpus se jmenuje ''SYNv8-NEWTON2015-kolok'' * Odesláno: * **NEWTON2015.json.tgz** * **NEWTON2015.txt.tgz** * **NEWTON2015.vrt.json.tgz** * **NEWTON2015.vrt.tgz** ==== NEWTON2016 ==== * Velikost: 6.207 souborů, 1,4 GB * Tagování: **grimm**(?), 45(?) CPU, cca 6,5 hod. * Kolokace: **chomsky**, 6 CPU, cca 102 hod. * Chyba: ''<<'' a ''>>'' změněno na ''$1'' -- opraveno * Odesláno: * **NEWTON2016.json.tgz** * **NEWTON2016.txt.tgz** * **NEWTON2016.vrt.json.tgz** * **NEWTON2016.vrt.tgz** ==== NEWTON2017 ==== * Velikost: 6.191 souborů, 1,2 GB * Tagování: **grimm**(?), 45(?) CPU, cca 5,5 hod. * Kolokace: **chomsky**, 6 CPU, cca 88 hod. * Odesláno: * **NEWTON2017.json.tgz** * **NEWTON2017.txt.tgz** * **NEWTON2017.vrt.json.tgz** * **NEWTON2017.vrt.tgz** ==== NEWTON2018 ==== * Velikost: 9.975 souborů, 1,7 GB * Tagování: **grimm**(?), 45(?) CPU, cca 8 hod. * Kolokace: **jakobson**, 6 CPU, cca 101,5 hod. * Odesláno: * **NEWTON2018.json.tgz** * **NEWTON2018.txt.tgz** * **NEWTON2018.vrt.json.tgz** * **NEWTON2018.vrt.tgz** ==== SYN2015 ==== * Velikost: 3.376 souborů, 703 MB * Tagování: **???**, ??? CPU, cca 15,5 hod. * Kolokace: **???**, ??? CPU, cca 43,5 hod. * Odesláno: * **SYN2015.json.tgz** * **SYN2015.txt.tgz** * **SYN2015.vrt.json.tgz** * **SYN2015.vrt.tgz** ==== SYNv4 ==== * Velikost: 49.901 souborů, 16 GB * Tagování: **grimm**, 45 CPU, cca 74 hod. * Kolokace: **grimm**, 45 CPU, cca 194 hod. * Převedeno do ''vert-kolok-CNK-vrt'' * Hotový korpus se jmenuje ''SYNv8-SYNv4-kolok-1'' a ''SYNv8-SYNv4-kolok-2'' * Odesláno: * **SYNv4-1.vrt.json.tgz** * **SYNv4-1.vrt.tgz** * **SYNv4-2.vrt.json.tgz** * **SYNv4-2.vrt.tgz** * **SYNv4.json.tgz** * **SYNv4.txt.tgz** ===== Dodatečné opravy ===== * Co nebylo uděláno ručně, je ve dvou skriptech:emergency/bin/multi-line-corr.pl emergency/bin/single-line-corr.pl * Tyto skripty jsou přidány do ''frozen''. Jde hlavně o vokativy, chybně označená obouvidá slovesa, přechodníky a chyby se vším tím spojené. ==== Tagování ==== * ''RR--5'' * ''NN--------N'' * ''Xx'' * katě * vorvani ==== Kolokace ==== * ''navrh_huj...'' * ''Augiáš'' ==== Na závěr předělat všechny .vrt.json! ====