Table of Contents

Návod na výrobu SYNů

Do verze SYNv8 se pracovalo s “hybridem”, od verze SYN2020 se pracuje se skriptem process_text.sh. Návody na jednotlivé verze:

Získání aktuálních dat

Oprava vadných xml

V .xml souborech, které dostáváme z ÚČNK, mohou být jednak vadné UTF znaky a jednak chybně zpracované ligatury fi a fl. Programy, které to opravují jsou v adresáři /usr/local/syn2020/repair_xml:

Oba skripty jsou filtry, dají se pouštět v pajpě. Nejdřív je ale dobré udělat si adresář xml a v něm linky na XML soubory v adresáři orig. Skripty se pak pouštějí takto:

cd SYNv9/SYNv8_new/SYNv8_a-i_
parallel-filter.sh -C "repair_control_chars.pl | repair_xml.pl" \
-s xml -p45 -t ../../../SYNv10/SYNv8/SYNv8_a-i_/orig -v

Kontrola, jestli jsme toho nevzali moc:

cut -f2- -d':' stat_repair.txt | perl -pe 's/^<p>//' | perl -pe 's/^[\p{Punct}]+//' | perl -pe 's:</p>$::' | perl -pe 's/[[:punct:]]+$//' | sort -u | l

Výroba korpusu

Výroba korpusu pro Bonito

Výroba korpusu pro web