Wiki spuštěna 24. 7. 2025

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
wiki:user:skoumal:gacr24 [2025/04/25 20:36] – created - external edit 127.0.0.1wiki:user:skoumal:gacr24 [2025/12/11 15:23] (current) – [Subkorpus ONLINE] skoumal
Line 67: Line 67:
   * ''totalita'' -- původní korpus ''Totalita''   * ''totalita'' -- původní korpus ''Totalita''
   * ''totalita_CD'' -- texty z CD, které nebyly použité v korpusu ''Totalita''   * ''totalita_CD'' -- texty z CD, které nebyly použité v korpusu ''Totalita''
 +  * ''prezidenti'' -- novoroční projevy prezidentů z let 1949-1989
  
 === Příprava zdrojových textů === === Příprava zdrojových textů ===
Line 228: Line 229:
  
 === Aktuální ONLINE === === Aktuální ONLINE ===
 +
 +  * Zdroje jsou soustředěny v adresáři ''/home/skoumal/PROJEKTY/GACR2426/zdroje/subkorp_online'' a dále v podadresářích ''monitora/Antisyst'' a ''online_old/Antisyst''.
 +  * Soubory v adresáři ''orig'' obsahují správné hlavičky (tagy ''<doc>'' a ''<text>'').
 +  * Pro práci na korpusu se zkopírují do adresáře ''cnk-work/Frazeologie/Online/Antisyst/orig''
 +
 +
 +== Staré pokyny ==
  
 Existuje verze s "našimi" hlavičkami ve vertikále. Ta se zpracovává jako starý ONLINE (viz níže). Existuje verze s "našimi" hlavičkami ve vertikále. Ta se zpracovává jako starý ONLINE (viz níže).
  
 +<hidden>
 Zdroje k aktuálnímu ''ONLINE'' jsou umístěny v adresáři ''/cnk/common/korpus/zdroje/monitora'' a jsou uloženy jako ''JSON'' Zdroje k aktuálnímu ''ONLINE'' jsou umístěny v adresáři ''/cnk/common/korpus/zdroje/monitora'' a jsou uloženy jako ''JSON''
  
Line 244: Line 253:
   * Program ''read_json.py'' převede ''JSON'' na ''XML'':<code>cd .../Monitora   * Program ''read_json.py'' převede ''JSON'' na ''XML'':<code>cd .../Monitora
 ls *.json | parallel -j100 "json2xml.sh < {} > /cnk/work/skoumal/Frazeologie/Monitora/orig/{.}.xml"</code> ls *.json | parallel -j100 "json2xml.sh < {} > /cnk/work/skoumal/Frazeologie/Monitora/orig/{.}.xml"</code>
 +</hidden>
 +
 +=== Oprava XML s jsonem ===
 +
 +V některých XML souborech starého Onlinu jsou místo textu kusy JSONu. Oprava se provádí v adresářích ''/cnk/work/skoumal/Frazeologie/Online/Antisyst/orig-json'' a ''/cnk/work/skoumal/Frazeologie/Online/Antisyst/orig-json-corr''.
 +  * Soubory s JSONem uložíme v adresáři ''orig-json'' s opraveným JSONem -- ten musí být jedna dlouhá řádka:<code>cd .../orig
 +for ff in $(fgrep -l '{"version"' *.xml); do echo $ff; repair_json.pl < $ff > ../orig-json/$ff; done</code>
 +  * Pokračování:<code>json2xml.py tydenikobcanskepravo.cz_2023-11-24.xml | grep . | repair_html.pl | grep . | repair_html.pl | perl -pe 's/></>\n</g' | grep -vP "^<div [^>]+>$"  | grep -vP "^</div>$"</code>(potřeba dodělat!
  
 === Starý i nový ONLINE ve vertikále === === Starý i nový ONLINE ve vertikále ===

QR Code
QR Code wiki:user:skoumal:gacr24 (generated for current page)