Wiki spuštěna 24. 7. 2025

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
wiki:user:skoumal:gacr24 [2025/12/10 16:21] – [Subkorpus ONLINE] skoumalwiki:user:skoumal:gacr24 [2026/02/02 12:02] (current) – [Subkorpus ONLINE] skoumal
Line 233: Line 233:
   * Soubory v adresáři ''orig'' obsahují správné hlavičky (tagy ''<doc>'' a ''<text>'').   * Soubory v adresáři ''orig'' obsahují správné hlavičky (tagy ''<doc>'' a ''<text>'').
   * Pro práci na korpusu se zkopírují do adresáře ''cnk-work/Frazeologie/Online/Antisyst/orig''   * Pro práci na korpusu se zkopírují do adresáře ''cnk-work/Frazeologie/Online/Antisyst/orig''
 +
 +== Stav k 2.2.2025 ==
 +<code>
 +-rw-rw-r-- 1 skoumal cnk 8515 Nov 21 16:00 ./monitora/Antisyst/orig/zvedavec.org_2021-06-04.xml
 +-rw-rw-r-- 1 skoumal cnk 14507 Nov 21 16:00 ./monitora/Antisyst/orig/zvedavec.org_2021-07-29.xml
 +-rw-rw-r-- 1 skoumal cnk 20099 Nov 21 16:00 ./monitora/Antisyst/orig/zvedavec.org_2021-08-18.xml
 +-rw-rw-r-- 1 skoumal cnk 16472 Nov 21 16:00 ./monitora/Antisyst/orig/zvedavec.org_2021-08-19.xml
 +-rw-rw-r-- 1 skoumal cnk 11998 Nov 21 16:00 ./monitora/Antisyst/orig/zvedavec.org_2021-09-10.xml
 +-rw-rw-r-- 1 skoumal cnk 5465 Nov 21 16:00 ./monitora/Antisyst/orig/zvedavec.org_2021-12-07.xml
 +-rw-rw-r-- 1 skoumal cnk 22068 Nov 21 16:00 ./monitora/Antisyst/orig/zvedavec.org_2021-12-31.xml
 +-rw-r--r-- 1 skoumal cnk 339148 Nov 24 15:50 ./normalized_lists/finalni_vyber_monitora-complet-xml.srt
 +-rw-r--r-- 1 skoumal cnk 2120214 Nov 24 16:23 ./monitora/meta-monitora.tsv
 +-rw-r--r-- 1 skoumal cnk 1640 Nov 28 13:51 ./online_old/Antisyst/filelist.txt
 +</code>
  
  
Line 260: Line 274:
   * Soubory s JSONem uložíme v adresáři ''orig-json'' s opraveným JSONem -- ten musí být jedna dlouhá řádka:<code>cd .../orig   * Soubory s JSONem uložíme v adresáři ''orig-json'' s opraveným JSONem -- ten musí být jedna dlouhá řádka:<code>cd .../orig
 for ff in $(fgrep -l '{"version"' *.xml); do echo $ff; repair_json.pl < $ff > ../orig-json/$ff; done</code> for ff in $(fgrep -l '{"version"' *.xml); do echo $ff; repair_json.pl < $ff > ../orig-json/$ff; done</code>
 +  * Pokračování:<code>json2xml.py tydenikobcanskepravo.cz_2023-11-24.xml | grep . | repair_html.pl | grep . | repair_html.pl | perl -pe 's/></>\n</g' | grep -vP "^<div [^>]+>$"  | grep -vP "^</div>$"</code>(potřeba dodělat!
  
 === Starý i nový ONLINE ve vertikále === === Starý i nový ONLINE ve vertikále ===

QR Code
QR Code wiki:user:skoumal:gacr24 (generated for current page)