Wiki spuštěna 24. 7. 2025

Trénovací korpus vytvořený z Etalonu

  • Etalon se nedá vzít, jak je. Od trénovacího korpusu se liší v těchto bodech:
    • Tagy mají 16 pozic.
    • Nejsou tam neznámá slova (nevadí).
    • Jsou tam provedené opravy, tzn. původní nabídka neobsahovala správné lemma a tag (nevadí).
    • Tagy jsou zjednodušeny.

Formát dat pro MorphoDiTu

  • csts
  • Tagy mají 15 pozic
  • Trénování provedeme až po:
    • csts-morf
    • csts-rules
    • csts-rules-frazrl-rules1-rulh1
  • Adresáře s hotovými daty:
    • csts-Etalon
    • csts-rulh1

Postup převodu Etalonu

  • Data jsou uložena v /home/skoumal/PROJEKTY/INFRASTRUKTURA/Etalon/Morphodita-train.

Zpracování Etalonu pravidly

  • Nejdříve odstraníme z Etalonu lemmata a tagy:
    mkdir vert
    cd ../Verze/0.9/1
    for ff in *; do cut -f1 $ff > ../../../Morphodita-train/vert/$ff; done
  • Provedeme desambiguaci až po rulh1:
    cd ../../../Morphodita-train
    make-corp.sh -s vert -t csts -v -p45
    screen make-corp.sh -s csts -t csts-morf -A0 -B0 -Eucs2 -M -v -p45
    screen make-whole-corp-csts.sh -Eucs2 -M -p45 -v -Trulh1 -trules
  • Zjednodušíme tagy a vyházíme duplicity:
    mkdir csts-rulh1
    cd csts-rules-frazrl-rules1-rulh1
    for ff in *; do echo $ff; ../bin/80_simplify-tags.pl < $ff | ../bin/remove-dupl-csts-mark.pl h > ../csts-rulh1/${ff%.csts}; done

<code>make-corp.sh -s csts-rules-frazrl-rules1-rulh1 -t vert-rules-frazrl-rules1-rulh1 -p45 -v cd vert-rules-frazrl-rules1-rulh1 for ff in *.csts; do mv $ff ${ff%.csts}.vert; done for ff in *.vert; do sed -i '1{/^$/d}' $ff; done</code>

Úprava Etalonu

  • Vytvoříme nový adresář vert-Etalon a do něj převedeme Etalon s tagy zkrácenými na 15:
    cd .../Verze/0.9/1
    for ff in *; do perl -pe 's/(\t.*)\t/$1 /' $ff | perl -pe 's/.$//' > ../../../Morphodita-train/vert-Etalon/$ff; done
  • Převedeme do csts:
    make-corp.sh -s vert-Etalon -t csts-Etalon -v -p45

Porovnání

  • Orientačně můžeme porovnat výsledky:
    cd .../Morphodita-train
    diff -y <(perl -pe 's/<f[^>]+>/<f>/' csts-Etalon/11minutX01) <(perl -pe 's/<f[^>]+>/<f>/' csts-rulh1/11minutX01.csts) | l
  • anebo všechno:
    cd csts-Etalon
    for ff in *; do echo $ff; diff -y <(perl -pe 's/<f[^>]+>/<f>/' $ff) <(perl -pe 's/<f[^>]+>/<f>/' ../csts-rulh1/$ff); done | l

QR Code
QR Code wiki:user:skoumal:etalon:morphodita (generated for current page)