Wiki spuštěna 24. 7. 2025

Práce na SYNv14

  • Pracovní adresář: /cnk/work/skoumal/INFRA/SYNv14
  • Zdroj dat: (chomsky:)/mnt/ada/data/SYNv13
  • Verze nástrojů: 202512, 18. 12. 10:53

process_text

  • Postup zpracování:
Název Velikost Soubory Stroj CPU Začátek Konec Trvání final_corr Poznámka
SYNv8_a-i_ 6,1 GB 27.564 lovelace 100 12-08 11:32:10 12-12 06:51:52 91,5 h. 12-18 20:47
SYNv8_j-l 1,8 GB 14.821 grimm 40 12-11 14:11:20 12-13 09:17:05 43 h. 12-18 18:21
SYNv8_m-o 6,0 GB 17.301 jakobson 80 12-10 15:19:25 12-13 04:30:42 63+1,5 h. 12-19 17:13 po restartu
SYNv8_p-z 4,4 GB 27.986 lovelace2 60 12-10 17:25:27 12-13 15:44:53 70,5 h. 12-19 16:52
NEWTON2015 1,1 GB 6.331 grimm 45 12-05 01:14:03 12-06 03:45:22 26,5 h. 12-19 14:33
NEWTON2016 1009 MB 6.234 sag 10 12-05 01:21:55 12-07 17:48:50 40,5 h. 12-19 13:43
NEWTON2017 872 MB 6.198 jakobson 80 12-05 01:21:13 12-05 15:46:23 14,5 h. 12-19 13:52
NEWTON2018 1,3 GB 9.976 lovelace2 50 12-05 01:26:48 12-06 03:04:35 25,5 h. 12-19 14:11
NEWTON2019 804 MB 6.308 grimm 45 12-08 15:57:26 12-09 11:54:16 20 h. 12-19 15:20
NEWTON2020 832 MB 7.136 lovelace2 80 12-08 16:09:53 12-09 12:44:48 20,5 h. 12-19 14:50
NEWTON2021 692 MB 6.807 sag 10 12-08 16:03:03 12-10 17:05:22 49 h. 12-19 17:48
NEWTON2022 731 MB 6.564 jakobson 100 12-08 16:04:53 12-09 06:30:54 14,5 h. 12-19 16:36
NEWTON2023 654 MB 6.235 lovelace 100 12-12 15:39:27 12-13 07:21:02 16 h. 12-19 16:42
NEWTON2024 609 MB 5.941 sag 10 12-12 16:48:10 12-14 07:51:03 39 h. 12-19 17:28
SYN2020 261 MB 1.621 sag 10 12-11 14:59:40 12-12 10:19:57 19,5 h. 12-19 17:34
SYN2025 488 MB 3.747 grimm 45 12-02 12:26:11 12-03 01:21:12 7 h. 12-19 17:39 oprava na grimmovi
SYN2025-p 6,9 MB 305 lovelace 100 12-17 11:14:11 12-17 11:54:24 0,5 h. 12-19 00:07

Kontrola a převod do .ann.xml

  • Postup zpracování:
Název Stroj CPU Konec tar.gz
SYNv8_a-i_ lovelace2 100 Jan 08 23:29 chomsky
SYNv8_j-l jakobson 100 Jan 09 01:52 jakobson
SYNv8_m-o lovelace2 45 Jan 09 03:48 lovelace2
SYNv8_p-z lovelace2 100 Jan 09 00:47 sag
SYN2020 lovelace2 100 Jan 09 01:37 jakobson
SYN2025 lovelace2 100 Jan 09 01:41 jakobson
SYN2025-p lovelace2 100 Jan 09 01:43 sag
NEWTON2015 lovelace2 100 Jan 09 01:59 sag
NEWTON2016 lovelace2 100 Jan 09 02:19 jakobson
NEWTON2017 lovelace2 100 Jan 09 02:40 sag
NEWTON2018 lovelace2 100 Jan 09 03:03 jakobson
NEWTON2019 grimm 45 Jan 09 04:39 grimm
NEWTON2020 lovelace2 100 Jan 09 04:18 sag
NEWTON2021 lovelace2 100 Jan 09 04:44 lovelace
NEWTON2022 lovelace2 100 Jan 09 04:52 sag
NEWTON2023 jakobson 100 Jan 09 05:12 jakobson
NEWTON2024 lovelace2 100 Jan 09 04:59 lovelace

Poslední opravy

  • Jde vesměs o opravy adjektiv a dverbií se záporkami
  • Pracuje se v adresář /home/skoumal/cnk-work/INFRA/OPRAVA
  • Do něj se zkopírují všechny adresáře in-utf8 kromě SYN2025 a SYN2025-p
  • Provede se morfologická analýza:
    cd /home/skoumal/cnk-work/INFRA/OPRAVA/<korpus>
    screen process_text.sh -v -tvrbtg8 -p<num>
  • Potom porovnáme novou morfologii s původní:
    cd .../<korpus>
    diffys -w200 -r vert-vrbtg8/ ../../SYNv14/<korpus>/vert-vrbtg8/ | grep -v "^diff -y" | cut -f2  | cut -f1 -d' ' | sort -u > ../<korpus>-diff.txt
  • Vybereme slova, která je třeba opravit:
    Seznam.txt
    spoutaný        nespoutaný      AA
    dbalý   nedbalý AA
    volný   nevolný AA
    otesaný neotesaný       AA
    pokrytý nepokrytý       AA
    pozorovaný      nepozorovaný    AA
    uvěřitelně      neuvěřitelně    Dg
    vázaný  nevázaný        AA
    zvyklý  nezvyklý        AA
    zúčastněný      nezúčastněný    AA
    zřízený nezřízený       AA

    a vygrepneme fajly, kterých se oprava týká

    find_negation_v14.sh
  • Samotné opravy provedeme skriptem
    repair_negation_v14.sh

    Výsledky jsou v adresářích mwe_out-prod-c2-corr/ u každého korpusu.

  • Pro každý korpus přejmenujeme adresáře
    mv mwe_out-prod-c2 mwe_out-prod-c2.sav
    mv mwe_out-prod-c2-corr mwe_out-prod-c2
    mv vert-mwe-corr vert-mwe-corr.sav
    mkdir vert-mwe-corr

    a provedeme kontrolu s generováním .ann.xml

    cd .../<korpus>
    check-mwe-corpus.sh -p100 -v

A ještě ta poslední, úplně nejposlednější oprava

  • Opravuje se do_prdele_práce, ale musí se použít poslední opravy, které se dělaly už na vertikále s MWE
  • Vytvoříme si opravené vert-rules0-frazrl-rules-mdita-sublm-agr:
    cd <korpus>
    mv vert-rules0-frazrl-rules-mdita-sublm-agr  vert-rules0-frazrl-rules-mdita-sublm-agr.sav
    mkdir vert-rules0-frazrl-rules-mdita-sublm-agr
    cd mwe_out-prod-c2.sav
    ls -S *.txt | parallel -j100 echo {}; "cut -f1-6 {} > ../vert-rules0-frazrl-rules-mdita-sublm-agr/{}"
    cd ../mwe_out-prod-c2
    ls -S *.txt | parallel -j100 echo {}; "cut -f1-6 {} > ../vert-rules0-frazrl-rules-mdita-sublm-agr/{}"

    anebo spustíme skript

    mwe_new_input.sh
  • Teď můžeme znova udělat frazémovou anotaci:
    screen mwe_annotate_v14.sh
  • [ Oprava chybějících typů užití
    cd mwe_out-prod-c2
    mkdir ../mwe_out-prod-c2-opr
    ls -S | parallel -j45 "perl -pe 's/([\t\|])-(..____)/\1g\2/g' {} > ../mwe_out-prod-c2-opr/{}"

    ] - naštěstí to Přemek opravil.

  • A dorazíme to
    screen check-mwe-corpus.sh -p100 -v

QR Code
QR Code wiki:user:skoumal:infra:synv14 (generated for current page)