Do verze SYNv8
se pracovalo s “hybridem”, od verze SYN2020
se pracuje se skriptem process_text.sh
. Návody na jednotlivé verze:
SYNv8
: hybridSYN2020
: process_text/cnk/work/korpusy/newton
. Zkopírujeme je do adresáře /home/skoumal/cnk-work/SYNvXX/NEWTON20YY/orig
:cd cnk-work/SYNv13 mkdir -p NEWTON2023/orig for dd in /cnk/work/korpusy/newton/2023/*; do echo $dd; rsync -az $dd/2023/* NEWTON2023/orig/; done
V .xml
souborech, které dostáváme z ÚČNK, mohou být jednak vadné UTF znaky a jednak chybně zpracované ligatury fi
a fl
. Programy, které to opravují jsou v adresáři /usr/local/syn2020/repair_xml
:
repair_control_chars.pl
repair_xml.pl
Oba skripty jsou filtry, dají se pouštět v pajpě. Nejdřív je ale dobré udělat si adresář xml
a v něm linky na XML soubory v adresáři orig
. Skripty se pak pouštějí takto:
cd SYNv9/SYNv8_new/SYNv8_a-i_ parallel-filter.sh -C "repair_control_chars.pl | repair_xml.pl" \ -s xml -p45 -t ../../../SYNv10/SYNv8/SYNv8_a-i_/orig -v
Kontrola, jestli jsme toho nevzali moc:
cut -f2- -d':' stat_repair.txt | perl -pe 's/^<p>//' | perl -pe 's/^[\p{Punct}]+//' | perl -pe 's:</p>$::' | perl -pe 's/[[:punct:]]+$//' | sort -u | l
[/net/chomsky]/store/manatee-registry
/mnt/sdb1/manatee/data
/var/lib/manatee/data
/var/lib/manatee/registry
/var/lib/bonito
/var/www/bonito
/net/grimm/store/corp/<jmeno_korpusu>
xml2vrt.py
. Adresář musí mít jméno vert-<jmeno>
. Hotový korpus v Bonitu nebo na webu pak bude mít název <jmeno_korpusu>-<jmeno>
.manatee-registry.sh
s vhodnými parametry:-C
: s metainformacemi dodanými programem xml2vrt.py
-s
: libovolný korpus se sloupci oddělenými tabulátorem a se strukturními značkami (ale bez tagu <doc>
)-t
: libovolný korpus se sloupci oddělenými tabulátorem<doc>
, musíme si ENCODING utf-8
INFO
: sem napíšeme stručný popis a datumATTRIBUTE …
: přidáme názvy všech sloupců, které chceme mít zobrazené.STRUCTURE doc { ATTRIBUTE …
: zkontrolujeme struktury a počet a názvy jejich atributů.runm.pl
. Tento krok je zbytečný, pokud nechceme korpus prohledávat Bonitem.cd /mnt/sdb1/manatee/data rsync -avz /net/chomsky/store/manatee-registry/<korpus>* . sudo chown -R manatee:manatee <korpus> mv <korpus> /var/lib/manatee/registry rm <korpus>~ mv <korpus>-data <korpus>
cd /var/lib/manatee/data ln -s /mnt/sdb1/manatee/data/<korpus> sudo chown manatee:manatee <korpus>
/var/www/bonito/run.cgi
(případně run-<user>.cgi
).