Table of Contents

Práce na projektu TAČR

Projekt trvá od 09/23 do 11/26.

Cílem je doplnit kvalitativně i kvantitativně databázi LEMUR a při značkování přejít na ni.

Anotace korpusů Frantou i Lemurem

Anotace Frantou

Anotace Lemurem

Popis anotačního programu

Vytvoření korpusu pro porovnání

Anotace mluvených korpusů

Lemurizace

V korpusu ortofon postupujeme takto:

Vytvoření korpusu pro Kontext

Postupujeme stejně jako u Synů. Nejdřív vše zkontrolujeme (podle Návodu na výrobu korpusu...) a potom vyrobíme data pro Kontext (podle Skript process_text.sh)

Anotace v SYNech

Zde jsou sepsané zásady pro frazémovou anotaci v SYNech počínaje verzí SYNv14 a SYN2025, přičemž něco se uplatní až v dalších korpusech.

Podrobnější popis mwe_tag a mwe_ltag je zde.

Korpus anotovaný nejnovější verzí mwe_tagger je např. NEWTON2023

Až bude LEMUR “hotový”, počítáme s prokliky z korpusu do databáze, jako je to v syn2020lemur.

Anotace MWE z ASSČ (pro Honzu)

Úprava vstupu

Vstupní věty obsahují ID a text se závorkami, lomítky a svislítky, např.

Je třeba text rozgenerovat, aby každá varianta tvořila celou větu. Netvoříme varianty, kde je něco vynecháno, vždy použijeme všechny pozice. Závorky jsou užitečné, protože vyznačují dosah lomítka. Tam, kde chybí, je doplníme perlovským skriptem paren_ASSC.pl

paren_ASSC.pl < assc-lemmata_062025_lemurizovat.txt > assc-lemmata_062025_paren_lemurizovat.txt

Výsledkem je soubor. kam jsou dodané složené závorky:

Pro rozgenerování všech variant máme skript split_ASSC.pl. Je třeba ještě opravit xsi a xse na si a se a vyrazit duplikáty. Celé rozgenerování se pouští příkazem

paren_ASSC.pl < assc-lemmata_062025_lemurizovat.txt | split_ASSC.pl | perl -pe 's/x(s[ei])/ $1/g' > assc-lemmata_062025_split_lemurizovat.txt

anebo, chceme-li zachovat uzávorkování, dvěma po sobě jsoucími příkazy

paren_ASSC.pl < assc-lemmata_062025_lemurizovat.txt > assc-lemmata_062025_paren_lemurizovat.txt
split_ASSC.pl < assc-lemmata_062025_paren_lemurizovat.txt | perl -pe 's/x(s[ei])/ $1/g' > assc-lemmata_062025_split_lemurizovat.txt

Pak je ještě třeba vyrazit duplikáty

sort -u -o assc-lemmata_062025_split_lemurizovat.txt assc-lemmata_062025_split_lemurizovat.txt

TODO: Je třeba ještě ošetřit spřežky:

Lemurizace

Hotový soubor assc-lemmata_062025_split_lemurizovat.txt zkopírujeme do adresáře in-utf8 a postupujeme obvyklým způsobem

process_text.sh -f -v

Adresář vert-rules0-frazrl-rules-mdita-sublm-agr zlinkujeme jako mwe-in, vyrobíme mwe-out a lemurizujeme

mwe_tagger -i mwe-in/ -o mwe-out/ -m ~/cnk-work/LEMUR/model-250618.msgpack -b -t -c

Korpus (assč-lemur) vyrobíme ze souboru v mwe-out příkazem

mkdir /cnk/common/korpus/vertikaly/assc-lemur
vert2verttab.pl mwe-out | perl -pe 'undef $/; s/<s>\n([0-9]+)[^\n]+/<s id="$1">/g' > /cnk/common/korpus/vertikaly/assc-lemur/vertikala