Table of Contents

Návod na výrobu korpusu novými skripty s MorphoDiTou

Tento návod se týká korpusů SYN2020 a novějších.

Přebrání souborů v XML

Soubory (pro NEWTON) jsou někde v /cnk/common/korpus/xml a jsou v adresářích podle titulů a ročníku, např. …/Ze/2023/. My potřebujeme všechny soubory v jednom adresáři:

for dd in /cnk/common/korpus/xml/synkorp/newton/03461/*; do echo $dd; cp -p $dd/2023/* ~/cnk-work/SYNv13/NEWTON2023/source/; done

Oprava ligatur fi a fl

V původních XML textech jsou místy rozdělená slova obsahující ligatury fi a fl. Před zpracováním korpusu část těchto chyb opravíme a opravené XML soubory nakonec odevzdáme i s korpusem.

cd NEWTON2020
parallel-filter.sh -C "repair_control_chars.pl | repair_xml.pl" -s orig_old -t orig_new -v -p45

Zkontrolujeme provedené opravy:

sort -u stat_repair.txt | perl -pe 's/<p>//' | perl -pe 's:</p>?::' | perl -pe 's/^(OCR_[0-9][0-9]:)[\s[:punct:]“„…«»]+/$1/' \
| perl -pe 's/[[:punct:]“„…«»]+$//' | sort -u | l

a případně přizpůsobíme skript repair_xml.pl. Před novým spuštěním nezapomeneme smazat stat_repair.txt.

Opravy repair_xml.pl

Kontrolu provedeme obarveným diffem:

for dd in *; do cd $dd/2023; for ff in *; do \
git diff --no-index --color=always $ff ../../../../../11_step/newton/03461/$dd/2023/$ff | diff-highlight; done; cd ../..; done \
| l -r

nebo

for dd in *; do cd $dd/2023; for ff in *; do \
diff -u --color=always $ff ../../../../../11_step/newton/03461/$dd/2023/$ff | diff-highlight; done; cd ../..; done \
| l -r

Zkontrolovat:

Dodat:

Odstranění XML značek

Tokenizace, segmentace, morfologie, pravidla a MorphoDiTa

Syntax

Kolokace

Kolokace se vyrábějí skriptem process_kolok.sh:

cd NEWTON2020
process_kolok.sh -p 80 -v

pokud jsme dělali pouze pravidla a máme adresář vert-rules-mdita-correct, anebo příkazem

process_kolok.sh -p 80 -s vert-rules0-frazrl-rules-mdita-correct -v

Vytvoření mezivýsledku vert-rules0-frazrl-rules-mdita-kolok

Pokud jsme nepustili kolokace s přepínačem -D a potřebujeme výsledek FRANTy před závěrečnými skripty, můžeme si chybějící data vyrobit:

cd NEWTON2019
parallel-filter.sh -C "cut -f2- | split-subl-agreg.pl | cut -f1,2,4- | perl -pe 's/^([^\t]+\t[^\t]+\t[^\t]+)\t/\1/'" \
-s vert-rules0-frazrl-rules-mdita-kolok-sublm-agr -t vert-rules0-frazrl-rules-mdita-kolok -v -p100

Druhé kolo final_corrections

Závěrečné kontroly

Musíme zkontrolovat:

  1. Počet zpracovaných souborů
  2. Korektnost řádků včetně tagů
  3. Úplnost souborů
  4. Kompatibilitu s původními XML texty

Opravy chybějících nebo vadných souborů

Převod do formátu pro ČNK

Výroba vlastních korpusů