Do verze SYNv8 se pracovalo s “hybridem”, od verze SYN2020 se pracuje se skriptem process_text.sh. Návody na jednotlivé verze:
SYNv8: hybridSYN2020: process_text/cnk/work/korpusy/newton. Zkopírujeme je do adresáře /home/skoumal/cnk-work/SYNvXX/NEWTON20YY/orig:cd cnk-work/SYNv13 mkdir -p NEWTON2023/orig for dd in /cnk/work/korpusy/newton/2023/*; do echo $dd; rsync -az $dd/2023/* NEWTON2023/orig/; done
V .xml souborech, které dostáváme z ÚČNK, mohou být jednak vadné UTF znaky a jednak chybně zpracované ligatury fi a fl. Programy, které to opravují jsou v adresáři /usr/local/syn2020/repair_xml:
repair_control_chars.plrepair_xml.pl
Oba skripty jsou filtry, dají se pouštět v pajpě. Nejdřív je ale dobré udělat si adresář xml a v něm linky na XML soubory v adresáři orig. Skripty se pak pouštějí takto:
cd SYNv9/SYNv8_new/SYNv8_a-i_ parallel-filter.sh -C "repair_control_chars.pl | repair_xml.pl" \ -s xml -p45 -t ../../../SYNv10/SYNv8/SYNv8_a-i_/orig -v
Kontrola, jestli jsme toho nevzali moc:
cut -f2- -d':' stat_repair.txt | perl -pe 's/^<p>//' | perl -pe 's/^[\p{Punct}]+//' | perl -pe 's:</p>$::' | perl -pe 's/[[:punct:]]+$//' | sort -u | l
[/net/chomsky]/store/manatee-registry/mnt/sdb1/manatee/data/var/lib/manatee/data/var/lib/manatee/registry/var/lib/bonito/var/www/bonito/net/grimm/store/corp/<jmeno_korpusu>xml2vrt.py. Adresář musí mít jméno vert-<jmeno>. Hotový korpus v Bonitu nebo na webu pak bude mít název <jmeno_korpusu>-<jmeno>.manatee-registry.sh s vhodnými parametry:-C: s metainformacemi dodanými programem xml2vrt.py-s: libovolný korpus se sloupci oddělenými tabulátorem a se strukturními značkami (ale bez tagu <doc>)-t: libovolný korpus se sloupci oddělenými tabulátorem<doc>, musíme si ENCODING utf-8INFO: sem napíšeme stručný popis a datumATTRIBUTE …: přidáme názvy všech sloupců, které chceme mít zobrazené.STRUCTURE doc { ATTRIBUTE …: zkontrolujeme struktury a počet a názvy jejich atributů.runm.pl. Tento krok je zbytečný, pokud nechceme korpus prohledávat Bonitem.cd /mnt/sdb1/manatee/data rsync -avz /net/chomsky/store/manatee-registry/<korpus>* . sudo chown -R manatee:manatee <korpus> mv <korpus> /var/lib/manatee/registry rm <korpus>~ mv <korpus>-data <korpus>
cd /var/lib/manatee/data ln -s /mnt/sdb1/manatee/data/<korpus> sudo chown manatee:manatee <korpus>
/var/www/bonito/run.cgi (případně run-<user>.cgi).