| Both sides previous revisionPrevious revisionNext revision | Previous revision |
| wiki:user:skoumal:infra:synv14 [2025/12/17 16:53] – skoumal | wiki:user:skoumal:infra:synv14 [2026/01/09 04:26] (current) – [Kontrola a převod do .ann.xml] skoumal |
|---|
| * Pracovní adresář: ''/cnk/work/skoumal/INFRA/SYNv14'' | * Pracovní adresář: ''/cnk/work/skoumal/INFRA/SYNv14'' |
| * Zdroj dat: ''(chomsky:)/mnt/ada/data/SYNv13'' | * Zdroj dat: ''(chomsky:)/mnt/ada/data/SYNv13'' |
| * Verze nástrojů: ''202511'', 26. 11. 22:11 | * Verze nástrojů: ''202512'', 18. 12. 10:53 |
| | |
| | ===== process_text ===== |
| * Postup zpracování: | * Postup zpracování: |
| |
| ^ Název ^ Velikost ^ Soubory ^ Stroj ^ CPU ^ Začátek ^ Konec ^ Trvání ^ Poznámka ^ | ^ Název ^ Velikost ^ Soubory ^ Stroj ^ CPU ^ Začátek ^ Konec ^ Trvání ^ final_corr ^ Poznámka ^ |
| | SYNv8_a-i_ | 6,1 GB | 27.564 | <color red>lovelace</color> | 100 | 12-08 11:32:10 | 12-12 06:51:52 | 91,5 h. | ''db050723.txt'' je kratší | | | SYNv8_a-i_ | 6,1 GB | 27.564 | <color red>lovelace</color> | 100 | 12-08 11:32:10 | 12-12 06:51:52 | 91,5 h. | 12-18 20:47 | | |
| | SYNv8_j-l | 1,8 GB | 14.821 | <color green>grimm</color> | 40 | 12-11 14:11:20 | 12-13 09:17:05 | 43 h. | | | SYNv8_j-l | 1,8 GB | 14.821 | <color green>grimm</color> | 40 | 12-11 14:11:20 | 12-13 09:17:05 | 43 h. | 12-18 18:21 | |
| | SYNv8_m-o | 6,0 GB | 17.301 | <color blue>jakobson</color> | 80 | 12-10 15:19:25 | 12-13 04:30:42 | 63+1,5 h. | po restartu | | | SYNv8_m-o | 6,0 GB | 17.301 | <color blue>jakobson</color> | 80 | 12-10 15:19:25 | 12-13 04:30:42 | 63+1,5 h. | 12-19 17:13 | po restartu | |
| | SYNv8_p-z | 4,4 GB | 27.986 | <color purple>lovelace2</color> | 60 | 12-10 17:25:27 | 12-13 15:44:53 | 70,5 h. | | | SYNv8_p-z | 4,4 GB | 27.986 | <color purple>lovelace2</color> | 60 | 12-10 17:25:27 | 12-13 15:44:53 | 70,5 h. | 12-19 16:52 | |
| | NEWTON2015 | 1,1 GB | 6.331 | <color green>grimm</color> | 45 | 12-05 01:14:03 | 12-06 03:45:22 | 26,5 h. | | | NEWTON2015 | 1,1 GB | 6.331 | <color green>grimm</color> | 45 | 12-05 01:14:03 | 12-06 03:45:22 | 26,5 h. | 12-19 14:33 | |
| | NEWTON2016 | 1009 MB | 6.234 | <color brown>sag</color> | 10 | 12-05 01:21:55 | 12-07 17:48:50 | 40,5 h. | | | NEWTON2016 | 1009 MB | 6.234 | <color brown>sag</color> | 10 | 12-05 01:21:55 | 12-07 17:48:50 | 40,5 h. | 12-19 13:43 | |
| | NEWTON2017 | 872 MB | 6.198 | <color blue>jakobson</color> | 80 | 12-05 01:21:13 | 12-05 15:46:23 | 14,5 h. | | | NEWTON2017 | 872 MB | 6.198 | <color blue>jakobson</color> | 80 | 12-05 01:21:13 | 12-05 15:46:23 | 14,5 h. | 12-19 13:52 | |
| | NEWTON2018 | 1,3 GB | 9.976 | <color purple>lovelace2</color> | 50 | 12-05 01:26:48 | 12-06 03:04:35 | 25,5 h. | | | NEWTON2018 | 1,3 GB | 9.976 | <color purple>lovelace2</color> | 50 | 12-05 01:26:48 | 12-06 03:04:35 | 25,5 h. | 12-19 14:11 | |
| | NEWTON2019 | 804 MB | 6.308 | <color green>grimm</color> | 45 | 12-08 15:57:26 | 12-09 11:54:16 | 20 h. | | | NEWTON2019 | 804 MB | 6.308 | <color green>grimm</color> | 45 | 12-08 15:57:26 | 12-09 11:54:16 | 20 h. | 12-19 15:20 | |
| | NEWTON2020 | 832 MB | 7.136 | <color purple>lovelace2</color> | 80 | 12-08 16:09:53 | 12-09 12:44:48 | 20,5 h. | | | NEWTON2020 | 832 MB | 7.136 | <color purple>lovelace2</color> | 80 | 12-08 16:09:53 | 12-09 12:44:48 | 20,5 h. | 12-19 14:50 | |
| | NEWTON2021 | 692 MB | 6.807 | <color brown>sag</color> | 10 | 12-08 16:03:03 | 12-10 17:05:22 | 49 h. | | | | NEWTON2021 | 692 MB | 6.807 | <color brown>sag</color> | 10 | 12-08 16:03:03 | 12-10 17:05:22 | 49 h. | 12-19 17:48 | |
| | NEWTON2022 | 731 MB | 6.564 | <color blue>jakobson</color> | 100 | 12-08 16:04:53 | 12-09 06:30:54 | 14,5 h. | | | NEWTON2022 | 731 MB | 6.564 | <color blue>jakobson</color> | 100 | 12-08 16:04:53 | 12-09 06:30:54 | 14,5 h. | 12-19 16:36 | |
| | NEWTON2023 | 654 MB | 6.235 | <color red>lovelace</color> | 100 | 12-12 15:39:27 | 12-13 07:21:02 | 16 h. | | | NEWTON2023 | 654 MB | 6.235 | <color red>lovelace</color> | 100 | 12-12 15:39:27 | 12-13 07:21:02 | 16 h. | 12-19 16:42 | |
| | NEWTON2024 | 609 MB | 5.941 | <color brown>sag</color> | 10 | 12-12 16:48:10 | 12-14 07:51:03 | 39 h. | | | NEWTON2024 | 609 MB | 5.941 | <color brown>sag</color> | 10 | 12-12 16:48:10 | 12-14 07:51:03 | 39 h. | 12-19 17:28 | |
| | SYN2020 | 261 MB | 1.621 | <color brown>sag</color> | 10 | 12-11 14:59:40 | 12-12 10:19:57 | 19,5 h. | | | SYN2020 | 261 MB | 1.621 | <color brown>sag</color> | 10 | 12-11 14:59:40 | 12-12 10:19:57 | 19,5 h. | 12-19 17:34 | |
| | SYN2025 | 488 MB | 3.747 | <color green>grimm</color> | 45 | 12-02 12:26:11 | 12-03 01:21:12 | 7 h. | | | SYN2025 | 488 MB | 3.747 | <color green>grimm</color> | 45 | 12-02 12:26:11 | 12-03 01:21:12 | 7 h. | 12-19 17:39 | oprava na grimmovi | |
| | SYN2025-p | 6,9 MB | 305 | <color red>lovelace</color> | 100 | 12-17 11:14:11 | 12-17 11:54:24 | 0,5 h. | | | SYN2025-p | 6,9 MB | 305 | <color red>lovelace</color> | 100 | 12-17 11:14:11 | 12-17 11:54:24 | 0,5 h. | 12-19 00:07 | |
| | |
| | ===== Kontrola a převod do .ann.xml ===== |
| | |
| | * Postup zpracování: |
| | |
| | ^ Název ^ Stroj ^ CPU ^ Konec ^ tar.gz ^ |
| | | SYNv8_a-i_ | <color purple>lovelace2</color> | 100 | Jan 08 23:29 | chomsky | |
| | | SYNv8_j-l | <color blue>jakobson</color> | 100 | Jan 09 01:52 | jakobson | |
| | | SYNv8_m-o | <color purple>lovelace2</color> | 45 | Jan 09 03:48 | lovelace2 | |
| | | SYNv8_p-z | <color purple>lovelace2</color> | 100 | Jan 09 00:47 | sag | |
| | | SYN2020 | <color purple>lovelace2</color> | 100 | Jan 09 01:37 | jakobson | |
| | | SYN2025 | <color purple>lovelace2</color> | 100 | Jan 09 01:41 | jakobson | |
| | | SYN2025-p | <color purple>lovelace2</color> | 100 | Jan 09 01:43 | sag | |
| | | NEWTON2015 | <color purple>lovelace2</color> | 100 | Jan 09 01:59 | sag | |
| | | NEWTON2016 | <color purple>lovelace2</color> | 100 | Jan 09 02:19 | jakobson | |
| | | NEWTON2017 | <color purple>lovelace2</color> | 100 | Jan 09 02:40 | sag | |
| | | NEWTON2018 | <color purple>lovelace2</color> | 100 | Jan 09 03:03 | jakobson | |
| | | NEWTON2019 | <color green>grimm</color> | 45 | Jan 09 04:39 | grimm | |
| | | NEWTON2020 | <color purple>lovelace2</color> | 100 | Jan 09 04:18 | sag | |
| | | NEWTON2021 | <color purple>lovelace2</color> | 100 | Jan 09 04:44 | lovelace | |
| | | NEWTON2022 | <color purple>lovelace2</color> | 100 | Jan 09 04:52 | sag | |
| | | NEWTON2023 | <color blue>jakobson</color> | 100 | Jan 09 05:12 | jakobson | |
| | | NEWTON2024 | <color purple>lovelace2</color> | 100 | Jan 09 04:59 | lovelace | |
| | |
| | |
| | ===== Poslední opravy ===== |
| | |
| | * Jde vesměs o opravy adjektiv a dverbií se záporkami |
| | * Pracuje se v adresář ''/home/skoumal/cnk-work/INFRA/OPRAVA'' |
| | * Do něj se zkopírují všechny adresáře ''in-utf8'' kromě ''SYN2025'' a ''SYN2025-p'' |
| | * Provede se morfologická analýza:<code>cd /home/skoumal/cnk-work/INFRA/OPRAVA/<korpus> |
| | screen process_text.sh -v -tvrbtg8 -p<num></code> |
| | * Potom porovnáme novou morfologii s původní:<code>cd .../<korpus> |
| | diffys -w200 -r vert-vrbtg8/ ../../SYNv14/<korpus>/vert-vrbtg8/ | grep -v "^diff -y" | cut -f2 | cut -f1 -d' ' | sort -u > ../<korpus>-diff.txt</code> |
| | * Vybereme slova, která je třeba opravit:<code - Seznam.txt>spoutaný nespoutaný AA |
| | dbalý nedbalý AA |
| | volný nevolný AA |
| | otesaný neotesaný AA |
| | pokrytý nepokrytý AA |
| | pozorovaný nepozorovaný AA |
| | uvěřitelně neuvěřitelně Dg |
| | vázaný nevázaný AA |
| | zvyklý nezvyklý AA |
| | zúčastněný nezúčastněný AA |
| | zřízený nezřízený AA</code>a vygrepneme fajly, kterých se oprava týká<code>find_negation_v14.sh</code> |
| | * Samotné opravy provedeme skriptem<code>repair_negation_v14.sh</code>Výsledky jsou v adresářích ''mwe_out-prod-c2-corr/'' u každého korpusu. |
| | * Pro každý korpus přejmenujeme adresáře<code>mv mwe_out-prod-c2 mwe_out-prod-c2.sav |
| | mv mwe_out-prod-c2-corr mwe_out-prod-c2 |
| | mv vert-mwe-corr vert-mwe-corr.sav |
| | mkdir vert-mwe-corr</code>a provedeme kontrolu s generováním ''.ann.xml''<code>cd .../<korpus> |
| | check-mwe-corpus.sh -p100 -v</code> |
| |
| | ===== A ještě ta poslední, úplně nejposlednější oprava ===== |
| |
| | * Opravuje se do_prdele_práce, ale musí se použít poslední opravy, které se dělaly už na vertikále s MWE |
| | * Vytvoříme si opravené ''vert-rules0-frazrl-rules-mdita-sublm-agr'':<code>cd <korpus> |
| | mv vert-rules0-frazrl-rules-mdita-sublm-agr vert-rules0-frazrl-rules-mdita-sublm-agr.sav |
| | mkdir vert-rules0-frazrl-rules-mdita-sublm-agr |
| | cd mwe_out-prod-c2.sav |
| | ls -S *.txt | parallel -j100 echo {}; "cut -f1-6 {} > ../vert-rules0-frazrl-rules-mdita-sublm-agr/{}" |
| | cd ../mwe_out-prod-c2 |
| | ls -S *.txt | parallel -j100 echo {}; "cut -f1-6 {} > ../vert-rules0-frazrl-rules-mdita-sublm-agr/{}"</code>anebo spustíme skript<code> |
| | mwe_new_input.sh</code> |
| | * Teď můžeme znova udělat frazémovou anotaci:<code>screen mwe_annotate_v14.sh</code> |
| | * [ Oprava chybějících typů užití<code>cd mwe_out-prod-c2 |
| | mkdir ../mwe_out-prod-c2-opr |
| | ls -S | parallel -j45 "perl -pe 's/([\t\|])-(..____)/\1g\2/g' {} > ../mwe_out-prod-c2-opr/{}"</code>] - naštěstí to Přemek opravil. |
| | * A dorazíme to<code>screen check-mwe-corpus.sh -p100 -v</code> |