cd cnk-work/SYNv13
mkdir -p NEWTON2023/orig
for dd in /cnk/work/korpusy/newton/2023/*; do echo $dd; rsync -az $dd/2023/* NEWTON2023/orig/; done
* Takto zkopírujeme všechny Newtony od r. 2015
*
===== Oprava vadných xml =====
V ''.xml'' souborech, které dostáváme z ÚČNK, mohou být jednak vadné UTF znaky a jednak chybně zpracované ligatury ''fi'' a ''fl''. Programy, které to opravují jsou v adresáři ''/usr/local/syn2020/repair_xml'':
* ''repair_control_chars.pl''
* ''repair_xml.pl''
Oba skripty jsou filtry, dají se pouštět v pajpě. Nejdřív je ale dobré udělat si adresář ''xml'' a v něm linky na XML soubory v adresáři ''orig''. Skripty se pak pouštějí takto:cd SYNv9/SYNv8_new/SYNv8_a-i_
parallel-filter.sh -C "repair_control_chars.pl | repair_xml.pl" \
-s xml -p45 -t ../../../SYNv10/SYNv8/SYNv8_a-i_/orig -v
Kontrola, jestli jsme toho nevzali moc:
cut -f2- -d':' stat_repair.txt | perl -pe 's/^//' | perl -pe 's/^[\p{Punct}]+//' | perl -pe 's:
$::' | perl -pe 's/[[:punct:]]+$//' | sort -u | l
===== Výroba korpusu =====
* Bonito nezvládá UTF-8, proto používáme webové rozhraní.
* Adresáře:
* pro Bonito: ''[/net/chomsky]/store/manatee-registry''
* pro web (na jakobsonovi):
* ''/mnt/sdb1/manatee/data''
* ''/var/lib/manatee/data''
* ''/var/lib/manatee/registry''
* ''/var/lib/bonito''
* ''/var/www/bonito''
* Nejdříve se připraví data pro Bonito a pak se nalinkují/zkopírují pro web.
==== Výroba korpusu pro Bonito ====
* Korpus se vyrábí na **chomském**.
* Přesuneme se do adresáře s korpusem, typicky ''/net/grimm/store/corp/cd /mnt/sdb1/manatee/data
rsync -avz /net/chomsky/store/manatee-registry/* .
sudo chown -R manatee:manatee
mv /var/lib/manatee/registry
rm ~
mv -data
* Vyrobíme linky v adresáři s daty:cd /var/lib/manatee/data
ln -s /mnt/sdb1/manatee/data/
sudo chown manatee:manatee
* Upravíme soubor ''/var/www/bonito/run.cgi'' (případně ''run-