Wiki spuštěna 24. 7. 2025

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
wiki:user:skoumal:gacr24 [2025/10/30 12:22] – [Subkorpus Totalita] skoumalwiki:user:skoumal:gacr24 [2025/12/11 15:23] (current) – [Subkorpus ONLINE] skoumal
Line 229: Line 229:
  
 === Aktuální ONLINE === === Aktuální ONLINE ===
 +
 +  * Zdroje jsou soustředěny v adresáři ''/home/skoumal/PROJEKTY/GACR2426/zdroje/subkorp_online'' a dále v podadresářích ''monitora/Antisyst'' a ''online_old/Antisyst''.
 +  * Soubory v adresáři ''orig'' obsahují správné hlavičky (tagy ''<doc>'' a ''<text>'').
 +  * Pro práci na korpusu se zkopírují do adresáře ''cnk-work/Frazeologie/Online/Antisyst/orig''
 +
 +
 +== Staré pokyny ==
  
 Existuje verze s "našimi" hlavičkami ve vertikále. Ta se zpracovává jako starý ONLINE (viz níže). Existuje verze s "našimi" hlavičkami ve vertikále. Ta se zpracovává jako starý ONLINE (viz níže).
  
 +<hidden>
 Zdroje k aktuálnímu ''ONLINE'' jsou umístěny v adresáři ''/cnk/common/korpus/zdroje/monitora'' a jsou uloženy jako ''JSON'' Zdroje k aktuálnímu ''ONLINE'' jsou umístěny v adresáři ''/cnk/common/korpus/zdroje/monitora'' a jsou uloženy jako ''JSON''
  
Line 245: Line 253:
   * Program ''read_json.py'' převede ''JSON'' na ''XML'':<code>cd .../Monitora   * Program ''read_json.py'' převede ''JSON'' na ''XML'':<code>cd .../Monitora
 ls *.json | parallel -j100 "json2xml.sh < {} > /cnk/work/skoumal/Frazeologie/Monitora/orig/{.}.xml"</code> ls *.json | parallel -j100 "json2xml.sh < {} > /cnk/work/skoumal/Frazeologie/Monitora/orig/{.}.xml"</code>
 +</hidden>
 +
 +=== Oprava XML s jsonem ===
 +
 +V některých XML souborech starého Onlinu jsou místo textu kusy JSONu. Oprava se provádí v adresářích ''/cnk/work/skoumal/Frazeologie/Online/Antisyst/orig-json'' a ''/cnk/work/skoumal/Frazeologie/Online/Antisyst/orig-json-corr''.
 +  * Soubory s JSONem uložíme v adresáři ''orig-json'' s opraveným JSONem -- ten musí být jedna dlouhá řádka:<code>cd .../orig
 +for ff in $(fgrep -l '{"version"' *.xml); do echo $ff; repair_json.pl < $ff > ../orig-json/$ff; done</code>
 +  * Pokračování:<code>json2xml.py tydenikobcanskepravo.cz_2023-11-24.xml | grep . | repair_html.pl | grep . | repair_html.pl | perl -pe 's/></>\n</g' | grep -vP "^<div [^>]+>$"  | grep -vP "^</div>$"</code>(potřeba dodělat!
  
 === Starý i nový ONLINE ve vertikále === === Starý i nový ONLINE ve vertikále ===

QR Code
QR Code wiki:user:skoumal:gacr24 (generated for current page)