Wiki spuštěna 24. 7. 2025

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
wiki:user:skoumal:infra:synv14 [2025/12/19 10:42] skoumalwiki:user:skoumal:infra:synv14 [2026/01/09 04:26] (current) – [Kontrola a převod do .ann.xml] skoumal
Line 3: Line 3:
   * Pracovní adresář: ''/cnk/work/skoumal/INFRA/SYNv14''   * Pracovní adresář: ''/cnk/work/skoumal/INFRA/SYNv14''
   * Zdroj dat: ''(chomsky:)/mnt/ada/data/SYNv13''   * Zdroj dat: ''(chomsky:)/mnt/ada/data/SYNv13''
-  * Verze nástrojů: ''202511'', 261122:11+  * Verze nástrojů: ''202512'', 181210:53 
 + 
 +===== process_text ===== 
   * Postup zpracování:   * Postup zpracování:
  
Line 9: Line 12:
 | SYNv8_a-i_  |  6,1 GB |  27.564 | <color red>lovelace</color>  |   100 | 12-08 11:32:10  | 12-12 06:51:52  |  91,5 h. | 12-18 20:47  |   | | SYNv8_a-i_  |  6,1 GB |  27.564 | <color red>lovelace</color>  |   100 | 12-08 11:32:10  | 12-12 06:51:52  |  91,5 h. | 12-18 20:47  |   |
 | SYNv8_j-l  |  1,8 GB |  14.821 | <color green>grimm</color>  |  40 | 12-11 14:11:20  | 12-13 09:17:05  |  43 h. | 12-18 18:21 | | SYNv8_j-l  |  1,8 GB |  14.821 | <color green>grimm</color>  |  40 | 12-11 14:11:20  | 12-13 09:17:05  |  43 h. | 12-18 18:21 |
-| SYNv8_m-o  |  6,0 GB |  17.301 | <color blue>jakobson</color>  |   80 | 12-10 15:19:25  | 12-13 04:30:42  |  63+1,5 h. | 12-18  | po restartu +| SYNv8_m-o  |  6,0 GB |  17.301 | <color blue>jakobson</color>  |   80 | 12-10 15:19:25  | 12-13 04:30:42  |  63+1,5 h. | 12-19 17:13  | po restartu 
-| SYNv8_p-z  |  4,4 GB |  27.986 | <color purple>lovelace2</color>  |  60 | 12-10 17:25:27  | 12-13 15:44:53  |  70,5 h. | 12-18  | +| SYNv8_p-z  |  4,4 GB |  27.986 | <color purple>lovelace2</color>  |  60 | 12-10 17:25:27  | 12-13 15:44:53  |  70,5 h. | 12-19 16:52  | 
-| NEWTON2015  |  1,1 GB |  6.331 | <color green>grimm</color>  |   45 | 12-05 01:14:03   | 12-06 03:45:22  |  26,5 h. | 12-18  +| NEWTON2015  |  1,1 GB |  6.331 | <color green>grimm</color>  |   45 | 12-05 01:14:03   | 12-06 03:45:22  |  26,5 h. | 12-19 14:33 
-| NEWTON2016  |  1009 MB |  6.234 | <color brown>sag</color>  |   10 | 12-05 01:21:55   | 12-07 17:48:50  |  40,5 h. | 12-18  +| NEWTON2016  |  1009 MB |  6.234 | <color brown>sag</color>  |   10 | 12-05 01:21:55   | 12-07 17:48:50  |  40,5 h. | 12-19 13:43 
-| NEWTON2017  |  872 MB |  6.198 | <color blue>jakobson</color>  |   80 | 12-05 01:21:13   | 12-05 15:46:23  |  14,5 h. | 12-18  | +| NEWTON2017  |  872 MB |  6.198 | <color blue>jakobson</color>  |   80 | 12-05 01:21:13   | 12-05 15:46:23  |  14,5 h. | 12-19 13:52  | 
-| NEWTON2018  |  1,3 GB |  9.976 | <color purple>lovelace2</color>  |   50 | 12-05 01:26:48   | 12-06 03:04:35  |  25,5 h. | 12-18  +| NEWTON2018  |  1,3 GB |  9.976 | <color purple>lovelace2</color>  |   50 | 12-05 01:26:48   | 12-06 03:04:35  |  25,5 h. | 12-19 14:11 
-| NEWTON2019  |  804 MB |  6.308 | <color green>grimm</color>  |   45 | 12-08 15:57:26  | 12-09 11:54:16  |  20 h. | 12-18  | +| NEWTON2019  |  804 MB |  6.308 | <color green>grimm</color>  |   45 | 12-08 15:57:26  | 12-09 11:54:16  |  20 h. | 12-19 15:20  | 
-| NEWTON2020  |  832 MB |  7.136 | <color purple>lovelace2</color>  |   80 | 12-08 16:09:53  | 12-09 12:44:48  |  20,5 h. | 12-19  +| NEWTON2020  |  832 MB |  7.136 | <color purple>lovelace2</color>  |   80 | 12-08 16:09:53  | 12-09 12:44:48  |  20,5 h. | 12-19 14:50 
-| NEWTON2021  |  692 MB |  6.807 | <color brown>sag</color>  |   10 | 12-08 16:03:03  | 12-10 17:05:22  |  49 h. | 12-19  +| NEWTON2021  |  692 MB |  6.807 | <color brown>sag</color>  |   10 | 12-08 16:03:03  | 12-10 17:05:22  |  49 h. | 12-19 17:48 
-| NEWTON2022  |  731 MB |  6.564 | <color blue>jakobson</color>  |   100 | 12-08 16:04:53   | 12-09 06:30:54  |  14,5 h. | 12-19  | +| NEWTON2022  |  731 MB |  6.564 | <color blue>jakobson</color>  |   100 | 12-08 16:04:53   | 12-09 06:30:54  |  14,5 h. | 12-19 16:36  | 
-| NEWTON2023  |  654 MB |  6.235 | <color red>lovelace</color>  |  100 | 12-12 15:39:27  | 12-13 07:21:02  |  16 h. | 12-19  | +| NEWTON2023  |  654 MB |  6.235 | <color red>lovelace</color>  |  100 | 12-12 15:39:27  | 12-13 07:21:02  |  16 h. | 12-19 16:42  | 
-| NEWTON2024  |  609 MB |  5.941 | <color brown>sag</color>  |  10 | 12-12  16:48:10  | 12-14 07:51:03  |  39 h. | 12-19  | +| NEWTON2024  |  609 MB |  5.941 | <color brown>sag</color>  |  10 | 12-12  16:48:10  | 12-14 07:51:03  |  39 h. | 12-19 17:28  | 
-| SYN2020  |  261 MB |  1.621 | <color brown>sag</color>  |  10 | 12-11 14:59:40  | 12-12 10:19:57  |  19,5 h. | 12-18  | +| SYN2020  |  261 MB |  1.621 | <color brown>sag</color>  |  10 | 12-11 14:59:40  | 12-12 10:19:57  |  19,5 h. | 12-19 17:34  | 
-| SYN2025  |  488 MB |  3.747 | <color green>grimm</color>  |   45 | 12-02 12:26:11   | 12-03 01:21:12  |  7 h. | 12-18  |+| SYN2025  |  488 MB |  3.747 | <color green>grimm</color>  |   45 | 12-02 12:26:11   | 12-03 01:21:12  |  7 h. | 12-19 17:39  | oprava na grimmovi |
 | SYN2025-p  |  6,9 MB |  305 | <color red>lovelace</color>  |  100 | 12-17 11:14:11 |  12-17 11:54:24 |  0,5 h. | 12-19 00:07  | | SYN2025-p  |  6,9 MB |  305 | <color red>lovelace</color>  |  100 | 12-17 11:14:11 |  12-17 11:54:24 |  0,5 h. | 12-19 00:07  |
  
 +===== Kontrola a převod do .ann.xml =====
 +
 +  * Postup zpracování:
 +
 +^ Název  ^ Stroj  ^ CPU  ^ Konec  ^ tar.gz  ^                                                                                                                                                                    
 +| SYNv8_a-i_  | <color purple>lovelace2</color>  |  100 |   Jan 08 23:29 | chomsky  |                                                                                                                                                               
 +| SYNv8_j-l   | <color blue>jakobson</color>      100 |   Jan 09 01:52 | jakobson  |                                                                                                                                                     
 +| SYNv8_m-o   | <color purple>lovelace2</color>  |   45 |   Jan 09 03:48 | lovelace2  |                                                                                                                                    
 +| SYNv8_p-z   | <color purple>lovelace2</color>  |  100 |   Jan 09 00:47 | sag  |                                                                                                                                                                  
 +| SYN2020     | <color purple>lovelace2</color>  |  100 |  Jan 09 01:37 | jakobson  |                                                                                                                                                            
 +| SYN2025     | <color purple>lovelace2</color>  |  100 |  Jan 09 01:41 | jakobson  |                                                        
 +| SYN2025-p   | <color purple>lovelace2</color>  |  100 |  Jan 09 01:43 | sag  |                                         
 +| NEWTON2015  | <color purple>lovelace2</color>  |  100 |  Jan 09 01:59 | sag  |                                                                                                                             
 +| NEWTON2016  | <color purple>lovelace2</color>  |  100 |  Jan 09 02:19 | jakobson  |                                                                                                                                                           
 +| NEWTON2017  | <color purple>lovelace2</color>  |  100 |  Jan 09 02:40 | sag  |                                                                                                                                                            
 +| NEWTON2018  | <color purple>lovelace2</color>  |  100 |  Jan 09 03:03 | jakobson  |                                                                                                                                                                
 +| NEWTON2019  | <color green>grimm</color>  |        45 |  Jan 09 04:39 | grimm  |                                                                                                                                                          
 +| NEWTON2020  | <color purple>lovelace2</color>  |  100 | Jan 09 04:18 | sag  |                                                                                                                                                               
 +| NEWTON2021  | <color purple>lovelace2</color>  |  100 | Jan 09 04:44 | lovelace |                                                                                                                                                           
 +| NEWTON2022  | <color purple>lovelace2</color>  |  100 | Jan 09 04:52 | sag  |                                                                                                                                                              
 +| NEWTON2023  | <color blue>jakobson</color>  |     100 | Jan 09 05:12 | jakobson |                                                                                                                                                              
 +| NEWTON2024  | <color purple>lovelace2</color>  |  100 | Jan 09 04:59 | lovelace  |                                                                                                                                                          
 +
 +
 +===== Poslední opravy =====
 +
 +  * Jde vesměs o opravy adjektiv a dverbií se záporkami
 +  * Pracuje se v adresář ''/home/skoumal/cnk-work/INFRA/OPRAVA''
 +  * Do něj se zkopírují všechny adresáře ''in-utf8'' kromě ''SYN2025'' a ''SYN2025-p''
 +  * Provede se morfologická analýza:<code>cd /home/skoumal/cnk-work/INFRA/OPRAVA/<korpus>
 +screen process_text.sh -v -tvrbtg8 -p<num></code>
 +  * Potom porovnáme novou morfologii s původní:<code>cd .../<korpus>
 +diffys -w200 -r vert-vrbtg8/ ../../SYNv14/<korpus>/vert-vrbtg8/ | grep -v "^diff -y" | cut -f2  | cut -f1 -d' ' | sort -u > ../<korpus>-diff.txt</code>
 +  * Vybereme slova, která je třeba opravit:<code - Seznam.txt>spoutaný        nespoutaný      AA
 +dbalý   nedbalý AA
 +volný   nevolný AA
 +otesaný neotesaný       AA
 +pokrytý nepokrytý       AA
 +pozorovaný      nepozorovaný    AA
 +uvěřitelně      neuvěřitelně    Dg
 +vázaný  nevázaný        AA
 +zvyklý  nezvyklý        AA
 +zúčastněný      nezúčastněný    AA
 +zřízený nezřízený       AA</code>a vygrepneme fajly, kterých se oprava týká<code>find_negation_v14.sh</code>
 +  * Samotné opravy provedeme skriptem<code>repair_negation_v14.sh</code>Výsledky jsou v adresářích ''mwe_out-prod-c2-corr/'' u každého korpusu.
 +  * Pro každý korpus přejmenujeme adresáře<code>mv mwe_out-prod-c2 mwe_out-prod-c2.sav
 +mv mwe_out-prod-c2-corr mwe_out-prod-c2
 +mv vert-mwe-corr vert-mwe-corr.sav
 +mkdir vert-mwe-corr</code>a provedeme kontrolu s generováním ''.ann.xml''<code>cd .../<korpus>
 +check-mwe-corpus.sh -p100 -v</code>
 +
 +===== A ještě ta poslední, úplně nejposlednější oprava =====
  
 +  * Opravuje se do_prdele_práce, ale musí se použít poslední opravy, které se dělaly už na vertikále s MWE
 +  * Vytvoříme si opravené ''vert-rules0-frazrl-rules-mdita-sublm-agr'':<code>cd <korpus>
 +mv vert-rules0-frazrl-rules-mdita-sublm-agr  vert-rules0-frazrl-rules-mdita-sublm-agr.sav
 +mkdir vert-rules0-frazrl-rules-mdita-sublm-agr
 +cd mwe_out-prod-c2.sav
 +ls -S *.txt | parallel -j100 echo {}; "cut -f1-6 {} > ../vert-rules0-frazrl-rules-mdita-sublm-agr/{}"
 +cd ../mwe_out-prod-c2
 +ls -S *.txt | parallel -j100 echo {}; "cut -f1-6 {} > ../vert-rules0-frazrl-rules-mdita-sublm-agr/{}"</code>anebo spustíme skript<code>
 +mwe_new_input.sh</code>
 +  * Teď můžeme znova udělat frazémovou anotaci:<code>screen mwe_annotate_v14.sh</code>
 +  * [ Oprava chybějících typů užití<code>cd mwe_out-prod-c2
 +mkdir ../mwe_out-prod-c2-opr
 +ls -S | parallel -j45 "perl -pe 's/([\t\|])-(..____)/\1g\2/g' {} > ../mwe_out-prod-c2-opr/{}"</code>] - naštěstí to Přemek opravil.
 +  * A dorazíme to<code>screen check-mwe-corpus.sh -p100 -v</code>

QR Code
QR Code wiki:user:skoumal:infra:synv14 (generated for current page)