This is an old revision of the document!
Table of Contents
Práce na SYNv14
- Pracovní adresář:
/cnk/work/skoumal/INFRA/SYNv14 - Zdroj dat:
(chomsky:)/mnt/ada/data/SYNv13 - Verze nástrojů:
202512, 18. 12. 10:53
process_text
- Postup zpracování:
| Název | Velikost | Soubory | Stroj | CPU | Začátek | Konec | Trvání | final_corr | Poznámka |
|---|---|---|---|---|---|---|---|---|---|
| SYNv8_a-i_ | 6,1 GB | 27.564 | lovelace | 100 | 12-08 11:32:10 | 12-12 06:51:52 | 91,5 h. | 12-18 20:47 | |
| SYNv8_j-l | 1,8 GB | 14.821 | grimm | 40 | 12-11 14:11:20 | 12-13 09:17:05 | 43 h. | 12-18 18:21 | |
| SYNv8_m-o | 6,0 GB | 17.301 | jakobson | 80 | 12-10 15:19:25 | 12-13 04:30:42 | 63+1,5 h. | 12-19 17:13 | po restartu |
| SYNv8_p-z | 4,4 GB | 27.986 | lovelace2 | 60 | 12-10 17:25:27 | 12-13 15:44:53 | 70,5 h. | 12-19 16:52 | |
| NEWTON2015 | 1,1 GB | 6.331 | grimm | 45 | 12-05 01:14:03 | 12-06 03:45:22 | 26,5 h. | 12-19 14:33 | |
| NEWTON2016 | 1009 MB | 6.234 | sag | 10 | 12-05 01:21:55 | 12-07 17:48:50 | 40,5 h. | 12-19 13:43 | |
| NEWTON2017 | 872 MB | 6.198 | jakobson | 80 | 12-05 01:21:13 | 12-05 15:46:23 | 14,5 h. | 12-19 13:52 | |
| NEWTON2018 | 1,3 GB | 9.976 | lovelace2 | 50 | 12-05 01:26:48 | 12-06 03:04:35 | 25,5 h. | 12-19 14:11 | |
| NEWTON2019 | 804 MB | 6.308 | grimm | 45 | 12-08 15:57:26 | 12-09 11:54:16 | 20 h. | 12-19 15:20 | |
| NEWTON2020 | 832 MB | 7.136 | lovelace2 | 80 | 12-08 16:09:53 | 12-09 12:44:48 | 20,5 h. | 12-19 14:50 | |
| NEWTON2021 | 692 MB | 6.807 | sag | 10 | 12-08 16:03:03 | 12-10 17:05:22 | 49 h. | 12-19 17:48 | |
| NEWTON2022 | 731 MB | 6.564 | jakobson | 100 | 12-08 16:04:53 | 12-09 06:30:54 | 14,5 h. | 12-19 16:36 | |
| NEWTON2023 | 654 MB | 6.235 | lovelace | 100 | 12-12 15:39:27 | 12-13 07:21:02 | 16 h. | 12-19 16:42 | |
| NEWTON2024 | 609 MB | 5.941 | sag | 10 | 12-12 16:48:10 | 12-14 07:51:03 | 39 h. | 12-19 17:28 | |
| SYN2020 | 261 MB | 1.621 | sag | 10 | 12-11 14:59:40 | 12-12 10:19:57 | 19,5 h. | 12-19 17:34 | |
| SYN2025 | 488 MB | 3.747 | grimm | 45 | 12-02 12:26:11 | 12-03 01:21:12 | 7 h. | 12-19 17:39 | oprava na grimmovi |
| SYN2025-p | 6,9 MB | 305 | lovelace | 100 | 12-17 11:14:11 | 12-17 11:54:24 | 0,5 h. | 12-19 00:07 |
Kontrola a převod do .ann.xml
- Postup zpracování:
| Název | Stroj | CPU | Konec | Poznámka |
|---|---|---|---|---|
| SYNv8_a-i_ | lovelace2 | 80 | Dec 21 14:37 | |
| SYNv8_j-l | grimm | 45 | Dec 21 14:07 | |
| SYNv8_m-o | lovelace | 100 | Dec 21 17:02 | |
| SYNv8_p-z | lovelace2 | 80 | Dec 21 15:38 | |
| NEWTON2015 | grimm | 45 | Dec 21 16:13 | |
| NEWTON2016 | jakobson | 80 | Dec 21 16:09 | |
| NEWTON2017 | 80 | |||
| NEWTON2018 | 50 | |||
| NEWTON2019 | 45 | |||
| NEWTON2020 | 80 | |||
| NEWTON2021 | 10 | |||
| NEWTON2022 | 100 | |||
| NEWTON2023 | 100 | |||
| NEWTON2024 | 10 | |||
| SYN2020 | 10 | |||
| SYN2025 | 45 | |||
| SYN2025-p | 100 |
Poslední opravy
- Jde vesměs o opravy adjektiv a dverbií se záporkami
- Pracuje se v adresář
/home/skoumal/cnk-work/INFRA/OPRAVA - Do něj se zkopírují všechny adresáře
in-utf8kroměSYN2025aSYN2025-p - Provede se morfologická analýza:
cd /home/skoumal/cnk-work/INFRA/OPRAVA/<korpus> screen process_text.sh -v -tvrbtg8 -p<num>
- Potom porovnáme novou morfologii s původní:
cd .../<korpus> diffys -w200 -r vert-vrbtg8/ ../../SYNv14/<korpus>/vert-vrbtg8/ | grep -v "^diff -y" | cut -f2 | cut -f1 -d' ' | sort -u > ../<korpus>-diff.txt
- Vybereme slova, která je třeba opravit:
- Seznam.txt
spoutaný nespoutaný AA dbalý nedbalý AA volný nevolný AA otesaný neotesaný AA pokrytý nepokrytý AA pozorovaný nepozorovaný AA uvěřitelně neuvěřitelně Dg vázaný nevázaný AA zvyklý nezvyklý AA zúčastněný nezúčastněný AA zřízený nezřízený AA
a vygrepneme fajly, kterých se oprava týká
find_negation_v14.sh
- Samotné opravy provedeme skriptem
repair_negation_v14.sh
Výsledky jsou v adresářích
mwe_out-prod-c2-corr/u každého korpusu. - Pro každý korpus přejmenujeme adresáře
mv mwe_out-prod-c2 mwe_out-prod-c2.sav mv mwe_out-prod-c2-corr mwe_out-prod-c2 mv vert-mwe-corr vert-mwe-corr.sav mkdir vert-mwe-corr
a provedeme kontrolu s generováním
.ann.xmlcd .../<korpus> check-mwe-corpus.sh -p100 -v