Wiki spuštěna 24. 7. 2025

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
wiki:user:skoumal:gacr24 [2025/04/25 20:36] – created - external edit 127.0.0.1wiki:user:skoumal:gacr24 [2026/02/02 12:02] (current) – [Subkorpus ONLINE] skoumal
Line 67: Line 67:
   * ''totalita'' -- původní korpus ''Totalita''   * ''totalita'' -- původní korpus ''Totalita''
   * ''totalita_CD'' -- texty z CD, které nebyly použité v korpusu ''Totalita''   * ''totalita_CD'' -- texty z CD, které nebyly použité v korpusu ''Totalita''
 +  * ''prezidenti'' -- novoroční projevy prezidentů z let 1949-1989
  
 === Příprava zdrojových textů === === Příprava zdrojových textů ===
Line 228: Line 229:
  
 === Aktuální ONLINE === === Aktuální ONLINE ===
 +
 +  * Zdroje jsou soustředěny v adresáři ''/home/skoumal/PROJEKTY/GACR2426/zdroje/subkorp_online'' a dále v podadresářích ''monitora/Antisyst'' a ''online_old/Antisyst''.
 +  * Soubory v adresáři ''orig'' obsahují správné hlavičky (tagy ''<doc>'' a ''<text>'').
 +  * Pro práci na korpusu se zkopírují do adresáře ''cnk-work/Frazeologie/Online/Antisyst/orig''
 +
 +== Stav k 2.2.2025 ==
 +<code>
 +-rw-rw-r-- 1 skoumal cnk 8515 Nov 21 16:00 ./monitora/Antisyst/orig/zvedavec.org_2021-06-04.xml
 +-rw-rw-r-- 1 skoumal cnk 14507 Nov 21 16:00 ./monitora/Antisyst/orig/zvedavec.org_2021-07-29.xml
 +-rw-rw-r-- 1 skoumal cnk 20099 Nov 21 16:00 ./monitora/Antisyst/orig/zvedavec.org_2021-08-18.xml
 +-rw-rw-r-- 1 skoumal cnk 16472 Nov 21 16:00 ./monitora/Antisyst/orig/zvedavec.org_2021-08-19.xml
 +-rw-rw-r-- 1 skoumal cnk 11998 Nov 21 16:00 ./monitora/Antisyst/orig/zvedavec.org_2021-09-10.xml
 +-rw-rw-r-- 1 skoumal cnk 5465 Nov 21 16:00 ./monitora/Antisyst/orig/zvedavec.org_2021-12-07.xml
 +-rw-rw-r-- 1 skoumal cnk 22068 Nov 21 16:00 ./monitora/Antisyst/orig/zvedavec.org_2021-12-31.xml
 +-rw-r--r-- 1 skoumal cnk 339148 Nov 24 15:50 ./normalized_lists/finalni_vyber_monitora-complet-xml.srt
 +-rw-r--r-- 1 skoumal cnk 2120214 Nov 24 16:23 ./monitora/meta-monitora.tsv
 +-rw-r--r-- 1 skoumal cnk 1640 Nov 28 13:51 ./online_old/Antisyst/filelist.txt
 +</code>
 +
 +
 +== Staré pokyny ==
  
 Existuje verze s "našimi" hlavičkami ve vertikále. Ta se zpracovává jako starý ONLINE (viz níže). Existuje verze s "našimi" hlavičkami ve vertikále. Ta se zpracovává jako starý ONLINE (viz níže).
  
 +<hidden>
 Zdroje k aktuálnímu ''ONLINE'' jsou umístěny v adresáři ''/cnk/common/korpus/zdroje/monitora'' a jsou uloženy jako ''JSON'' Zdroje k aktuálnímu ''ONLINE'' jsou umístěny v adresáři ''/cnk/common/korpus/zdroje/monitora'' a jsou uloženy jako ''JSON''
  
Line 244: Line 267:
   * Program ''read_json.py'' převede ''JSON'' na ''XML'':<code>cd .../Monitora   * Program ''read_json.py'' převede ''JSON'' na ''XML'':<code>cd .../Monitora
 ls *.json | parallel -j100 "json2xml.sh < {} > /cnk/work/skoumal/Frazeologie/Monitora/orig/{.}.xml"</code> ls *.json | parallel -j100 "json2xml.sh < {} > /cnk/work/skoumal/Frazeologie/Monitora/orig/{.}.xml"</code>
 +</hidden>
 +
 +=== Oprava XML s jsonem ===
 +
 +V některých XML souborech starého Onlinu jsou místo textu kusy JSONu. Oprava se provádí v adresářích ''/cnk/work/skoumal/Frazeologie/Online/Antisyst/orig-json'' a ''/cnk/work/skoumal/Frazeologie/Online/Antisyst/orig-json-corr''.
 +  * Soubory s JSONem uložíme v adresáři ''orig-json'' s opraveným JSONem -- ten musí být jedna dlouhá řádka:<code>cd .../orig
 +for ff in $(fgrep -l '{"version"' *.xml); do echo $ff; repair_json.pl < $ff > ../orig-json/$ff; done</code>
 +  * Pokračování:<code>json2xml.py tydenikobcanskepravo.cz_2023-11-24.xml | grep . | repair_html.pl | grep . | repair_html.pl | perl -pe 's/></>\n</g' | grep -vP "^<div [^>]+>$"  | grep -vP "^</div>$"</code>(potřeba dodělat!
  
 === Starý i nový ONLINE ve vertikále === === Starý i nový ONLINE ve vertikále ===

QR Code
QR Code wiki:user:skoumal:gacr24 (generated for current page)