Wiki spuštěna 24. 7. 2025

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
wiki:user:skoumal:gacr24 [2025/11/28 11:23] – [Subkorpus ONLINE] skoumalwiki:user:skoumal:gacr24 [2025/12/11 15:23] (current) – [Subkorpus ONLINE] skoumal
Line 254: Line 254:
 ls *.json | parallel -j100 "json2xml.sh < {} > /cnk/work/skoumal/Frazeologie/Monitora/orig/{.}.xml"</code> ls *.json | parallel -j100 "json2xml.sh < {} > /cnk/work/skoumal/Frazeologie/Monitora/orig/{.}.xml"</code>
 </hidden> </hidden>
 +
 +=== Oprava XML s jsonem ===
 +
 +V některých XML souborech starého Onlinu jsou místo textu kusy JSONu. Oprava se provádí v adresářích ''/cnk/work/skoumal/Frazeologie/Online/Antisyst/orig-json'' a ''/cnk/work/skoumal/Frazeologie/Online/Antisyst/orig-json-corr''.
 +  * Soubory s JSONem uložíme v adresáři ''orig-json'' s opraveným JSONem -- ten musí být jedna dlouhá řádka:<code>cd .../orig
 +for ff in $(fgrep -l '{"version"' *.xml); do echo $ff; repair_json.pl < $ff > ../orig-json/$ff; done</code>
 +  * Pokračování:<code>json2xml.py tydenikobcanskepravo.cz_2023-11-24.xml | grep . | repair_html.pl | grep . | repair_html.pl | perl -pe 's/></>\n</g' | grep -vP "^<div [^>]+>$"  | grep -vP "^</div>$"</code>(potřeba dodělat!
  
 === Starý i nový ONLINE ve vertikále === === Starý i nový ONLINE ve vertikále ===

QR Code
QR Code wiki:user:skoumal:gacr24 (generated for current page)