Wiki spuštěna 24. 7. 2025

This is an old revision of the document!


Práce na SYNv14

  • Pracovní adresář: /cnk/work/skoumal/INFRA/SYNv14
  • Zdroj dat: (chomsky:)/mnt/ada/data/SYNv13
  • Verze nástrojů: 202512, 18. 12. 10:53

process_text

  • Postup zpracování:
Název Velikost Soubory Stroj CPU Začátek Konec Trvání final_corr Poznámka
SYNv8_a-i_ 6,1 GB 27.564 lovelace 100 12-08 11:32:10 12-12 06:51:52 91,5 h. 12-18 20:47
SYNv8_j-l 1,8 GB 14.821 grimm 40 12-11 14:11:20 12-13 09:17:05 43 h. 12-18 18:21
SYNv8_m-o 6,0 GB 17.301 jakobson 80 12-10 15:19:25 12-13 04:30:42 63+1,5 h. 12-19 17:13 po restartu
SYNv8_p-z 4,4 GB 27.986 lovelace2 60 12-10 17:25:27 12-13 15:44:53 70,5 h. 12-19 16:52
NEWTON2015 1,1 GB 6.331 grimm 45 12-05 01:14:03 12-06 03:45:22 26,5 h. 12-19 14:33
NEWTON2016 1009 MB 6.234 sag 10 12-05 01:21:55 12-07 17:48:50 40,5 h. 12-19 13:43
NEWTON2017 872 MB 6.198 jakobson 80 12-05 01:21:13 12-05 15:46:23 14,5 h. 12-19 13:52
NEWTON2018 1,3 GB 9.976 lovelace2 50 12-05 01:26:48 12-06 03:04:35 25,5 h. 12-19 14:11
NEWTON2019 804 MB 6.308 grimm 45 12-08 15:57:26 12-09 11:54:16 20 h. 12-19 15:20
NEWTON2020 832 MB 7.136 lovelace2 80 12-08 16:09:53 12-09 12:44:48 20,5 h. 12-19 14:50
NEWTON2021 692 MB 6.807 sag 10 12-08 16:03:03 12-10 17:05:22 49 h. 12-19 17:48
NEWTON2022 731 MB 6.564 jakobson 100 12-08 16:04:53 12-09 06:30:54 14,5 h. 12-19 16:36
NEWTON2023 654 MB 6.235 lovelace 100 12-12 15:39:27 12-13 07:21:02 16 h. 12-19 16:42
NEWTON2024 609 MB 5.941 sag 10 12-12 16:48:10 12-14 07:51:03 39 h. 12-19 17:28
SYN2020 261 MB 1.621 sag 10 12-11 14:59:40 12-12 10:19:57 19,5 h. 12-19 17:34
SYN2025 488 MB 3.747 grimm 45 12-02 12:26:11 12-03 01:21:12 7 h. 12-19 17:39 oprava na grimmovi
SYN2025-p 6,9 MB 305 lovelace 100 12-17 11:14:11 12-17 11:54:24 0,5 h. 12-19 00:07

Kontrola a převod do .ann.xml

  • Postup zpracování:
Název Stroj CPU Konec Poznámka
SYNv8_a-i_ lovelace2 80 Dec 21 14:37
SYNv8_j-l grimm 45 Dec 21 14:07
SYNv8_m-o lovelace 100 Dec 21 17:02
SYNv8_p-z lovelace2 80 Dec 21 15:38
NEWTON2015 grimm 45 Dec 21 16:13
NEWTON2016 jakobson 80 Dec 21 16:09
NEWTON2017 80
NEWTON2018 50
NEWTON2019 45
NEWTON2020 80
NEWTON2021 10
NEWTON2022 100
NEWTON2023 100
NEWTON2024 10
SYN2020 10
SYN2025 45
SYN2025-p 100

Poslední opravy

  • Jde vesměs o opravy adjektiv a dverbií se záporkami
  • Pracuje se v adresář /home/skoumal/cnk-work/INFRA/OPRAVA
  • Do něj se zkopírují všechny adresáře in-utf8 kromě SYN2025 a SYN2025-p
  • Provede se morfologická analýza:
    cd /home/skoumal/cnk-work/INFRA/OPRAVA/<korpus>
    screen process_text.sh -v -tvrbtg8 -p<num>
  • Potom porovnáme novou morfologii s původní:
    cd .../<korpus>
    diffys -w200 -r vert-vrbtg8/ ../../SYNv14/<korpus>/vert-vrbtg8/ | grep -v "^diff -y" | cut -f2  | cut -f1 -d' ' | sort -u > ../<korpus>-diff.txt
  • Vybereme slova, která je třeba opravit:
    Seznam.txt
    spoutaný        nespoutaný      AA
    dbalý   nedbalý AA
    volný   nevolný AA
    otesaný neotesaný       AA
    pokrytý nepokrytý       AA
    pozorovaný      nepozorovaný    AA
    uvěřitelně      neuvěřitelně    Dg
    vázaný  nevázaný        AA
    zvyklý  nezvyklý        AA
    zúčastněný      nezúčastněný    AA
    zřízený nezřízený       AA

    a vygrepneme fajly, kterých se oprava týká

    find_negation_v14.sh
  • Samotné opravy provedeme skriptem
    repair_negation_v14.sh

    Výsledky jsou v adresářích mwe_out-prod-c2-corr/ u každého korpusu.

  • Pro každý korpus přejmenujeme adresáře
    mv mwe_out-prod-c2 mwe_out-prod-c2.sav
    mv mwe_out-prod-c2-corr mwe_out-prod-c2
    mv vert-mwe-corr vert-mwe-corr.sav
    mkdir vert-mwe-corr

    a provedeme kontrolu s generováním .ann.xml

    cd .../<korpus>
    check-mwe-corpus.sh -p100 -v

A ještě ta poslední, úplně nejposlednější oprava

  • Opravuje se do_prdele_práce, ale musí se použít poslední opravy, které se dělaly už na vertikále s MWE
  • Vytvoříme si opravené vert-rules0-frazrl-rules-mdita-sublm-agr:
    cd <korpus>
    mv vert-rules0-frazrl-rules-mdita-sublm-agr  vert-rules0-frazrl-rules-mdita-sublm-agr.sav
    mkdir vert-rules0-frazrl-rules-mdita-sublm-agr
    cd mwe_out-prod-c2.sav
    ls -S *.txt | parallel -j100 echo {}; "cut -f1-6 {} > ../vert-rules0-frazrl-rules-mdita-sublm-agr/{}"
    cd ../mwe_out-prod-c2
    ls -S *.txt | parallel -j100 echo {}; "cut -f1-6 {} > ../vert-rules0-frazrl-rules-mdita-sublm-agr/{}"

    anebo spustíme skript

    mwe_new_input.sh
  • Teď můžeme znova udělat frazémovou anotaci:
    screen mwe_annotate_v14.sh
  • [ Oprava chybějících typů užití
    cd mwe_out-prod-c2
    mkdir ../mwe_out-prod-c2-opr
    ls -S | parallel -j45 "perl -pe 's/([\t\|])-(..____)/\1g\2/g' {} > ../mwe_out-prod-c2-opr/{}"

    ] - naštěstí to Přemek opravil.


QR Code
QR Code wiki:user:skoumal:infra:synv14 (generated for current page)