====== Práce na SYNv14 ======
* Pracovní adresář: ''/cnk/work/skoumal/INFRA/SYNv14''
* Zdroj dat: ''(chomsky:)/mnt/ada/data/SYNv13''
* Verze nástrojů: ''202512'', 18. 12. 10:53
===== process_text =====
* Postup zpracování:
^ Název ^ Velikost ^ Soubory ^ Stroj ^ CPU ^ Začátek ^ Konec ^ Trvání ^ final_corr ^ Poznámka ^
| SYNv8_a-i_ | 6,1 GB | 27.564 | lovelace | 100 | 12-08 11:32:10 | 12-12 06:51:52 | 91,5 h. | 12-18 20:47 | |
| SYNv8_j-l | 1,8 GB | 14.821 | grimm | 40 | 12-11 14:11:20 | 12-13 09:17:05 | 43 h. | 12-18 18:21 |
| SYNv8_m-o | 6,0 GB | 17.301 | jakobson | 80 | 12-10 15:19:25 | 12-13 04:30:42 | 63+1,5 h. | 12-19 17:13 | po restartu |
| SYNv8_p-z | 4,4 GB | 27.986 | lovelace2 | 60 | 12-10 17:25:27 | 12-13 15:44:53 | 70,5 h. | 12-19 16:52 |
| NEWTON2015 | 1,1 GB | 6.331 | grimm | 45 | 12-05 01:14:03 | 12-06 03:45:22 | 26,5 h. | 12-19 14:33 |
| NEWTON2016 | 1009 MB | 6.234 | sag | 10 | 12-05 01:21:55 | 12-07 17:48:50 | 40,5 h. | 12-19 13:43 |
| NEWTON2017 | 872 MB | 6.198 | jakobson | 80 | 12-05 01:21:13 | 12-05 15:46:23 | 14,5 h. | 12-19 13:52 |
| NEWTON2018 | 1,3 GB | 9.976 | lovelace2 | 50 | 12-05 01:26:48 | 12-06 03:04:35 | 25,5 h. | 12-19 14:11 |
| NEWTON2019 | 804 MB | 6.308 | grimm | 45 | 12-08 15:57:26 | 12-09 11:54:16 | 20 h. | 12-19 15:20 |
| NEWTON2020 | 832 MB | 7.136 | lovelace2 | 80 | 12-08 16:09:53 | 12-09 12:44:48 | 20,5 h. | 12-19 14:50 |
| NEWTON2021 | 692 MB | 6.807 | sag | 10 | 12-08 16:03:03 | 12-10 17:05:22 | 49 h. | 12-19 17:48 |
| NEWTON2022 | 731 MB | 6.564 | jakobson | 100 | 12-08 16:04:53 | 12-09 06:30:54 | 14,5 h. | 12-19 16:36 |
| NEWTON2023 | 654 MB | 6.235 | lovelace | 100 | 12-12 15:39:27 | 12-13 07:21:02 | 16 h. | 12-19 16:42 |
| NEWTON2024 | 609 MB | 5.941 | sag | 10 | 12-12 16:48:10 | 12-14 07:51:03 | 39 h. | 12-19 17:28 |
| SYN2020 | 261 MB | 1.621 | sag | 10 | 12-11 14:59:40 | 12-12 10:19:57 | 19,5 h. | 12-19 17:34 |
| SYN2025 | 488 MB | 3.747 | grimm | 45 | 12-02 12:26:11 | 12-03 01:21:12 | 7 h. | 12-19 17:39 | oprava na grimmovi |
| SYN2025-p | 6,9 MB | 305 | lovelace | 100 | 12-17 11:14:11 | 12-17 11:54:24 | 0,5 h. | 12-19 00:07 |
===== Kontrola a převod do .ann.xml =====
* Postup zpracování:
^ Název ^ Stroj ^ CPU ^ Konec ^ tar.gz ^
| SYNv8_a-i_ | lovelace2 | 100 | Jan 08 23:29 | chomsky |
| SYNv8_j-l | jakobson | 100 | Jan 09 01:52 | jakobson |
| SYNv8_m-o | lovelace2 | 45 | Jan 09 03:48 | lovelace2 |
| SYNv8_p-z | lovelace2 | 100 | Jan 09 00:47 | sag |
| SYN2020 | lovelace2 | 100 | Jan 09 01:37 | jakobson |
| SYN2025 | lovelace2 | 100 | Jan 09 01:41 | jakobson |
| SYN2025-p | lovelace2 | 100 | Jan 09 01:43 | sag |
| NEWTON2015 | lovelace2 | 100 | Jan 09 01:59 | sag |
| NEWTON2016 | lovelace2 | 100 | Jan 09 02:19 | jakobson |
| NEWTON2017 | lovelace2 | 100 | Jan 09 02:40 | sag |
| NEWTON2018 | lovelace2 | 100 | Jan 09 03:03 | jakobson |
| NEWTON2019 | grimm | 45 | Jan 09 04:39 | grimm |
| NEWTON2020 | lovelace2 | 100 | Jan 09 04:18 | sag |
| NEWTON2021 | lovelace2 | 100 | Jan 09 04:44 | lovelace |
| NEWTON2022 | lovelace2 | 100 | Jan 09 04:52 | sag |
| NEWTON2023 | jakobson | 100 | Jan 09 05:12 | jakobson |
| NEWTON2024 | lovelace2 | 100 | Jan 09 04:59 | lovelace |
===== Poslední opravy =====
* Jde vesměs o opravy adjektiv a dverbií se záporkami
* Pracuje se v adresář ''/home/skoumal/cnk-work/INFRA/OPRAVA''
* Do něj se zkopírují všechny adresáře ''in-utf8'' kromě ''SYN2025'' a ''SYN2025-p''
* Provede se morfologická analýza:cd /home/skoumal/cnk-work/INFRA/OPRAVA/
screen process_text.sh -v -tvrbtg8 -p
* Potom porovnáme novou morfologii s původní:cd .../
diffys -w200 -r vert-vrbtg8/ ../../SYNv14//vert-vrbtg8/ | grep -v "^diff -y" | cut -f2 | cut -f1 -d' ' | sort -u > ../-diff.txt
* Vybereme slova, která je třeba opravit:spoutaný nespoutaný AA
dbalý nedbalý AA
volný nevolný AA
otesaný neotesaný AA
pokrytý nepokrytý AA
pozorovaný nepozorovaný AA
uvěřitelně neuvěřitelně Dg
vázaný nevázaný AA
zvyklý nezvyklý AA
zúčastněný nezúčastněný AA
zřízený nezřízený AAa vygrepneme fajly, kterých se oprava týkáfind_negation_v14.sh
* Samotné opravy provedeme skriptemrepair_negation_v14.shVýsledky jsou v adresářích ''mwe_out-prod-c2-corr/'' u každého korpusu.
* Pro každý korpus přejmenujeme adresářemv mwe_out-prod-c2 mwe_out-prod-c2.sav
mv mwe_out-prod-c2-corr mwe_out-prod-c2
mv vert-mwe-corr vert-mwe-corr.sav
mkdir vert-mwe-corra provedeme kontrolu s generováním ''.ann.xml''cd .../
check-mwe-corpus.sh -p100 -v
===== A ještě ta poslední, úplně nejposlednější oprava =====
* Opravuje se do_prdele_práce, ale musí se použít poslední opravy, které se dělaly už na vertikále s MWE
* Vytvoříme si opravené ''vert-rules0-frazrl-rules-mdita-sublm-agr'':cd
mv vert-rules0-frazrl-rules-mdita-sublm-agr vert-rules0-frazrl-rules-mdita-sublm-agr.sav
mkdir vert-rules0-frazrl-rules-mdita-sublm-agr
cd mwe_out-prod-c2.sav
ls -S *.txt | parallel -j100 echo {}; "cut -f1-6 {} > ../vert-rules0-frazrl-rules-mdita-sublm-agr/{}"
cd ../mwe_out-prod-c2
ls -S *.txt | parallel -j100 echo {}; "cut -f1-6 {} > ../vert-rules0-frazrl-rules-mdita-sublm-agr/{}"anebo spustíme skript
mwe_new_input.sh
* Teď můžeme znova udělat frazémovou anotaci:screen mwe_annotate_v14.sh
* [ Oprava chybějících typů užitícd mwe_out-prod-c2
mkdir ../mwe_out-prod-c2-opr
ls -S | parallel -j45 "perl -pe 's/([\t\|])-(..____)/\1g\2/g' {} > ../mwe_out-prod-c2-opr/{}"] - naštěstí to Přemek opravil.
* A dorazíme toscreen check-mwe-corpus.sh -p100 -v