| Both sides previous revisionPrevious revisionNext revision | Previous revision |
| wiki:user:skoumal:infra:synv14 [2025/12/21 22:33] – skoumal | wiki:user:skoumal:infra:synv14 [2026/01/09 04:26] (current) – [Kontrola a převod do .ann.xml] skoumal |
|---|
| * Postup zpracování: | * Postup zpracování: |
| |
| ^ Název ^ Stroj ^ CPU ^ Konec ^ Poznámka ^ | ^ Název ^ Stroj ^ CPU ^ Konec ^ tar.gz ^ |
| | SYNv8_a-i_ | <color purple>lovelace2</color> | 80 | Dec 21 14:37 | | | SYNv8_a-i_ | <color purple>lovelace2</color> | 100 | Jan 08 23:29 | chomsky | |
| | SYNv8_j-l | <color green>grimm</color> | 45 | Dec 21 14:07 | | | SYNv8_j-l | <color blue>jakobson</color> | 100 | Jan 09 01:52 | jakobson | |
| | SYNv8_m-o | <color red>lovelace</color> | 100 | Dec 21 17:02 | | | SYNv8_m-o | <color purple>lovelace2</color> | 45 | Jan 09 03:48 | lovelace2 | |
| | SYNv8_p-z | <color purple>lovelace2</color> | 80 | Dec 21 15:38 | | | SYNv8_p-z | <color purple>lovelace2</color> | 100 | Jan 09 00:47 | sag | |
| | NEWTON2015 | <color green>grimm</color> | 45 | Dec 21 16:13 | | | SYN2020 | <color purple>lovelace2</color> | 100 | Jan 09 01:37 | jakobson | |
| | NEWTON2016 | <color blue>jakobson</color> | 80 | Dec 21 16:09 | | | SYN2025 | <color purple>lovelace2</color> | 100 | Jan 09 01:41 | jakobson | |
| | NEWTON2017 | <color blue></color> | 80 | | | | SYN2025-p | <color purple>lovelace2</color> | 100 | Jan 09 01:43 | sag | |
| | NEWTON2018 | <color purple></color> | 50 | | | | NEWTON2015 | <color purple>lovelace2</color> | 100 | Jan 09 01:59 | sag | |
| | NEWTON2019 | <color green></color> | 45 | | | NEWTON2016 | <color purple>lovelace2</color> | 100 | Jan 09 02:19 | jakobson | |
| | NEWTON2020 | <color purple></color> | 80 | | | | NEWTON2017 | <color purple>lovelace2</color> | 100 | Jan 09 02:40 | sag | |
| | NEWTON2021 | <color brown></color> | 10 | | | NEWTON2018 | <color purple>lovelace2</color> | 100 | Jan 09 03:03 | jakobson | |
| | NEWTON2022 | <color blue></color> | 100 | | | | NEWTON2019 | <color green>grimm</color> | 45 | Jan 09 04:39 | grimm | |
| | NEWTON2023 | <color red></color> | 100 | | | NEWTON2020 | <color purple>lovelace2</color> | 100 | Jan 09 04:18 | sag | |
| | NEWTON2024 | <color brown></color> | 10 | | | | NEWTON2021 | <color purple>lovelace2</color> | 100 | Jan 09 04:44 | lovelace | |
| | SYN2020 | <color brown></color> | 10 | | | | NEWTON2022 | <color purple>lovelace2</color> | 100 | Jan 09 04:52 | sag | |
| | SYN2025 | <color green></color> | 45 | | | NEWTON2023 | <color blue>jakobson</color> | 100 | Jan 09 05:12 | jakobson | |
| | SYN2025-p | <color red></color> | 100 | | | NEWTON2024 | <color purple>lovelace2</color> | 100 | Jan 09 04:59 | lovelace | |
| | |
| | |
| | ===== Poslední opravy ===== |
| | |
| | * Jde vesměs o opravy adjektiv a dverbií se záporkami |
| | * Pracuje se v adresář ''/home/skoumal/cnk-work/INFRA/OPRAVA'' |
| | * Do něj se zkopírují všechny adresáře ''in-utf8'' kromě ''SYN2025'' a ''SYN2025-p'' |
| | * Provede se morfologická analýza:<code>cd /home/skoumal/cnk-work/INFRA/OPRAVA/<korpus> |
| | screen process_text.sh -v -tvrbtg8 -p<num></code> |
| | * Potom porovnáme novou morfologii s původní:<code>cd .../<korpus> |
| | diffys -w200 -r vert-vrbtg8/ ../../SYNv14/<korpus>/vert-vrbtg8/ | grep -v "^diff -y" | cut -f2 | cut -f1 -d' ' | sort -u > ../<korpus>-diff.txt</code> |
| | * Vybereme slova, která je třeba opravit:<code - Seznam.txt>spoutaný nespoutaný AA |
| | dbalý nedbalý AA |
| | volný nevolný AA |
| | otesaný neotesaný AA |
| | pokrytý nepokrytý AA |
| | pozorovaný nepozorovaný AA |
| | uvěřitelně neuvěřitelně Dg |
| | vázaný nevázaný AA |
| | zvyklý nezvyklý AA |
| | zúčastněný nezúčastněný AA |
| | zřízený nezřízený AA</code>a vygrepneme fajly, kterých se oprava týká<code>find_negation_v14.sh</code> |
| | * Samotné opravy provedeme skriptem<code>repair_negation_v14.sh</code>Výsledky jsou v adresářích ''mwe_out-prod-c2-corr/'' u každého korpusu. |
| | * Pro každý korpus přejmenujeme adresáře<code>mv mwe_out-prod-c2 mwe_out-prod-c2.sav |
| | mv mwe_out-prod-c2-corr mwe_out-prod-c2 |
| | mv vert-mwe-corr vert-mwe-corr.sav |
| | mkdir vert-mwe-corr</code>a provedeme kontrolu s generováním ''.ann.xml''<code>cd .../<korpus> |
| | check-mwe-corpus.sh -p100 -v</code> |
| | |
| | ===== A ještě ta poslední, úplně nejposlednější oprava ===== |
| | |
| | * Opravuje se do_prdele_práce, ale musí se použít poslední opravy, které se dělaly už na vertikále s MWE |
| | * Vytvoříme si opravené ''vert-rules0-frazrl-rules-mdita-sublm-agr'':<code>cd <korpus> |
| | mv vert-rules0-frazrl-rules-mdita-sublm-agr vert-rules0-frazrl-rules-mdita-sublm-agr.sav |
| | mkdir vert-rules0-frazrl-rules-mdita-sublm-agr |
| | cd mwe_out-prod-c2.sav |
| | ls -S *.txt | parallel -j100 echo {}; "cut -f1-6 {} > ../vert-rules0-frazrl-rules-mdita-sublm-agr/{}" |
| | cd ../mwe_out-prod-c2 |
| | ls -S *.txt | parallel -j100 echo {}; "cut -f1-6 {} > ../vert-rules0-frazrl-rules-mdita-sublm-agr/{}"</code>anebo spustíme skript<code> |
| | mwe_new_input.sh</code> |
| | * Teď můžeme znova udělat frazémovou anotaci:<code>screen mwe_annotate_v14.sh</code> |
| | * [ Oprava chybějících typů užití<code>cd mwe_out-prod-c2 |
| | mkdir ../mwe_out-prod-c2-opr |
| | ls -S | parallel -j45 "perl -pe 's/([\t\|])-(..____)/\1g\2/g' {} > ../mwe_out-prod-c2-opr/{}"</code>] - naštěstí to Přemek opravil. |
| | * A dorazíme to<code>screen check-mwe-corpus.sh -p100 -v</code> |