| Next revision | Previous revision |
| wiki:user:skoumal:gacr24 [2025/04/25 20:36] – created - external edit 127.0.0.1 | wiki:user:skoumal:gacr24 [2025/12/11 15:23] (current) – [Subkorpus ONLINE] skoumal |
|---|
| * ''totalita'' -- původní korpus ''Totalita'' | * ''totalita'' -- původní korpus ''Totalita'' |
| * ''totalita_CD'' -- texty z CD, které nebyly použité v korpusu ''Totalita'' | * ''totalita_CD'' -- texty z CD, které nebyly použité v korpusu ''Totalita'' |
| | * ''prezidenti'' -- novoroční projevy prezidentů z let 1949-1989 |
| |
| === Příprava zdrojových textů === | === Příprava zdrojových textů === |
| |
| === Aktuální ONLINE === | === Aktuální ONLINE === |
| | |
| | * Zdroje jsou soustředěny v adresáři ''/home/skoumal/PROJEKTY/GACR2426/zdroje/subkorp_online'' a dále v podadresářích ''monitora/Antisyst'' a ''online_old/Antisyst''. |
| | * Soubory v adresáři ''orig'' obsahují správné hlavičky (tagy ''<doc>'' a ''<text>''). |
| | * Pro práci na korpusu se zkopírují do adresáře ''cnk-work/Frazeologie/Online/Antisyst/orig'' |
| | |
| | |
| | == Staré pokyny == |
| |
| Existuje verze s "našimi" hlavičkami ve vertikále. Ta se zpracovává jako starý ONLINE (viz níže). | Existuje verze s "našimi" hlavičkami ve vertikále. Ta se zpracovává jako starý ONLINE (viz níže). |
| |
| | <hidden> |
| Zdroje k aktuálnímu ''ONLINE'' jsou umístěny v adresáři ''/cnk/common/korpus/zdroje/monitora'' a jsou uloženy jako ''JSON''. | Zdroje k aktuálnímu ''ONLINE'' jsou umístěny v adresáři ''/cnk/common/korpus/zdroje/monitora'' a jsou uloženy jako ''JSON''. |
| |
| * Program ''read_json.py'' převede ''JSON'' na ''XML'':<code>cd .../Monitora | * Program ''read_json.py'' převede ''JSON'' na ''XML'':<code>cd .../Monitora |
| ls *.json | parallel -j100 "json2xml.sh < {} > /cnk/work/skoumal/Frazeologie/Monitora/orig/{.}.xml"</code> | ls *.json | parallel -j100 "json2xml.sh < {} > /cnk/work/skoumal/Frazeologie/Monitora/orig/{.}.xml"</code> |
| | </hidden> |
| | |
| | === Oprava XML s jsonem === |
| | |
| | V některých XML souborech starého Onlinu jsou místo textu kusy JSONu. Oprava se provádí v adresářích ''/cnk/work/skoumal/Frazeologie/Online/Antisyst/orig-json'' a ''/cnk/work/skoumal/Frazeologie/Online/Antisyst/orig-json-corr''. |
| | * Soubory s JSONem uložíme v adresáři ''orig-json'' s opraveným JSONem -- ten musí být jedna dlouhá řádka:<code>cd .../orig |
| | for ff in $(fgrep -l '{"version"' *.xml); do echo $ff; repair_json.pl < $ff > ../orig-json/$ff; done</code> |
| | * Pokračování:<code>json2xml.py tydenikobcanskepravo.cz_2023-11-24.xml | grep . | repair_html.pl | grep . | repair_html.pl | perl -pe 's/></>\n</g' | grep -vP "^<div [^>]+>$" | grep -vP "^</div>$"</code>(potřeba dodělat! |
| |
| === Starý i nový ONLINE ve vertikále === | === Starý i nový ONLINE ve vertikále === |