Table of Contents

Etalon.v2020

Postup práce

Potřebujeme:

Postup:

Rychlý návod

Adresáře

Závislosti na verzi

Kdy je třeba předělat některý kus korpusu:

Automatický převod z Etalonu

Popis na fóru

Program pro převod

Výroba finálního korpusu

Kontrola

Vývoj převodního programu

Morfologická analýza Etalonu MDitou

Převod Etalonu do formátu SYN2020 a porovnání s MDitou

Dodatečné opravy

Použití pro trénování pajpy

Přidání verbtagů

Porovnání osob s Etalonem

Porovnání s všemi pravidly

Click to display ⇲

Click to hide ⇱

  • Předchozí postup
  • Pracujeme v adresáři ~/PROJEKTY/INFRASTRUKTURA/Etalon.v2020/testing-rules/Rules.
  • Vytvoříme adresář Etalon-final, ve kterém vyrobíme Etalon ve tvaru
    forma<TAB>lemma<SPACE>tag

    tímto příkazem:

    cd .../Opravy/final
    for ff in $(ls -B); do echo $ff; \
        grep -v "<p>" $ff | sed '1{/^$/d}' | cut -f1,3- > ../../Rules/Etalon-final/$ff; done
  • Vyrobíme i vertikálu, ve které slepíme zpátky agregáty:
    cd .../Opravy/final
    mkdir ../../Rules/vert
    for ff in $(ls -B); do echo $ff; \
        cut -f1-2 $ff | grep -v "<p>" | sed '1{/^$/d}' | perl -pe 'undef $/; s/(\p{Latin}+)\t0\n([\p{Latin}]+)/$1$2/gi' \
        | cut -f1 > ../../Rules/vert/$ff; done
  • Spustíme process_text.sh od vert:
    cd .../Rules
    process_text.sh -l -p45 -s vert -v

    a zkontrolujeme zarovnání:

    cd vert-morf-simp-nosp-sgcr-con-sublm-vrbtg8
    for ff in *; do echo $ff; sdiff -s <(cut -f1 $ff) <(cut -f1 ../Etalon-final/$ff); done

    Pokud vlevo nebo vpravo přebývají volné řádky, spustíme opravu:

    mkdir ../vert-morf-simp-nosp-sgcr-con-sublm-segcor-vrbtg8
    for ff in *; do echo $ff; \
        ../../../bin/correct_segm.pl ../Etalon-final/$ff $ff \
        > ../vert-morf-simp-nosp-sgcr-con-sublm-segcor-vrbtg8/$ff; done

    A můžeme znovu zkontrolovat:

    cd ../vert-morf-simp-nosp-sgcr-con-sublm-segcor-vrbtg8
    for ff in *; do echo $ff; sdiff -s <(cut -f1 $ff) <(cut -f1 ../Etalon-final/$ff); done

Click to display ⇲

Click to hide ⇱

  • Vytvoříme adresář Etalon-final, ve kterém vyrobíme Etalon ve tvaru
    forma<TAB>lemma<SPACE>tag

    tímto příkazem:

    cd vert-korpus
    for ff in $(ls -B); do echo $ff; cut -f1,3- $ff > ../Rules/Etalon-final/$ff; done

Definitivní Etalon s dlouhými tagy

Sjednocení in-utf8, vert-vrbtags a vert-korpus

Data pro Tomáše

Porovnávání s výsledky z natrénované MorphoDiTy

Zarovnání obou korpusů

Výroba korpusu pro porovnání

Výroba korpusu pro porovnání s vert

Porovnání Etalonu s rules, frazrl a mditou

Kolokace z Etalonu

Zpracování třemi metodami

S kolokacemi

Bez kolokací

Výroba korpusu pro porovnání všech tří metod s Etalonem

S kolokacemi

Click to display ⇲

Click to hide ⇱

PATH  /net/chomsky/store/manatee-registry/Etalon.2020-compare-data
ENCODING utf-8
INFO "Etalon.v2020 ve formátu SYN2020 včetně kolokací s porovnáním k 'rules', 'frazrl' a 'mdita', 29.5.2021"
INFOHREF "http://utkl.ff.cuni.cz/corpinfo/Etalon.2020-compare.html"
 
ATTRIBUTE word {
  TYPE "FD_FGD"
}
ATTRIBUTE sword {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE lemma {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE sublemma {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE tag {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE verbtag {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE col_lemma {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE col_type {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE rlemma {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE rsublemma {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE rtag {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE rverbtag {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE rcol_lemma {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE rcol_type {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE flemma {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE fsublemma {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE ftag {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE fverbtag {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE fcol_lemma {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE fcol_type {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE mlemma {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE msublemma {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE mtag {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE mverbtag {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE mcol_lemma {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE mcol_type {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE comp_lemma {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE comp_sublemma {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE comp_tag {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE comp_verbtag {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE comp_col_lemma {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE comp_col_type {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
 
STRUCTURE doc {
  ATTRIBUTE file
}
 
STRUCTURE s

Bez kolokací

Click to display ⇲

Click to hide ⇱

PATH  /net/chomsky/store/manatee-registry/Etalon.2020-compare-data
ENCODING utf-8
INFO "Etalon.v2020 ve formátu SYN2020 včetně kolokací s porovnáním k 'rules', 'frazrl' a 'mdita', 29.5.2021"
INFOHREF "http://utkl.ff.cuni.cz/corpinfo/Etalon.2020-compare.html"
 
ATTRIBUTE word {
  TYPE "FD_FGD"
}
ATTRIBUTE sword {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE lemma {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE sublemma {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE tag {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE verbtag {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE rlemma {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE rsublemma {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE rtag {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE rverbtag {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE flemma {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE fsublemma {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE ftag {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE fverbtag {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE mlemma {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE msublemma {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE mtag {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE mverbtag {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE comp_lemma {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE comp_sublemma {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE comp_tag {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
ATTRIBUTE comp_verbtag {
  TYPE "FD_FGD"
  MULTIVALUE y
  MULTISEP "|"
}
 
STRUCTURE doc {
  ATTRIBUTE file
}
 
STRUCTURE s

Udržované varianty

  1. Konečný formát obsahující word, synword, lemma, sublemma, tag a verbtag. Nachází se v adresáři compare/etalon
  2. Verze pro Korpus
  3. Verze pro Lindat
  4. Verze pro trénování MorphoDiTy a pravidel

Texty do Lindatu

Texty pro výrobu porovnání a pro trénování MorphoDiTy

Kontroly prováděné po ručních opravách Etalonu

Postup při opravách v klikátku

Opravy verbtagů