2.2.2007

Doplněny údaje o velikosti textů z korpusu Acquis Communautaire, opraveno značkování českého a anglického textu.

1.2.2007

Přidány české a anglické texty z Acquis Communautaire, tentokrát bezchybně zarovnané a opět připravené k načtení do ParaConku. Díky Ivone Ferraové, Josepu Bonetovi a Achimu Blattovi z Generálního ředitelství pro překlady Evropské komise. Další jazyky budou, až komise rozhodne o jednotných podmínkách poskytování těchto textů. 

aclux_csen.zip - kódování UTF-8, segmenty (věty) odděleny značkami <seg> ... </seg>

A_aclux_csen.zip - exportováno z ParaConku, kódování CP-1250, segmenty (věty) odděleny značkami <seg id=[pořadové číslo segmentu]> ... </seg> 

česká část: 704 195 segmentů, 10 897 251 slov, 91 064 407 znaků (včetně značek)
anglická část: 704 195 segmentů, 13 201 630 slov, 90 789 668 znaků (včetně značek)

6.10.2006

- pro češtinu a angličtinu spočítáno, kolik je v souborech tvarů slov 
(= řetězců alfabetických znaků, bez spojovníků, apostrofů apod., 
ignoruje se rozdíl mezi malými a velkými písmeny), 
a to jako celkový počet všech výskytů (tokens) 
a taky jako počet různých tvarů (types):

     tokens      types
cs   5 901 575   76 382
en   7 055 172   32 029

- přidány soubory:

jrc_cs_forms_alphasort  ... seznam tvarů v českém souboru, setříděný abecedně
jrc_cs_forms_freqsort  ... seznam tvarů v českém souboru, setříděný frekvenčně
jrc_en_forms_alphasort  ... seznam tvarů v anglickém souboru, setříděný abecedně
jrc_en_forms_freqsort  ... seznam tvarů v anglickém souboru, setříděný frekvenčně

26.6.2006

- u textů v souborech csde.zip, csfi.zip, csnl.zip 
byly prázdné segmenty označeny značkou <s1/>, případně <s2/>, 
opraveno na <s1></s1>, případně <s2></s2>

23.6.2006

Několik automaticky zarovnaných paralelních textů z korpusu Acquis Communautaire 
(http://langtech.jrc.it/JRC-Acquis.html), připravených k načtení do ParaConku (http://www.athel.com/para.html):

csde.zip
csen.zip
csfi.zip
csnl.zip
cspl.zip

- každý archiv (*.zip) obsahuje dva soubory, český a cizí, následuje přehled souborů s počtem segmentů, slov a znaků (včetně značek)

291875 5983678 47974116 jrc_csde_de
291875 5531152 44006987 jrc_csde_cs

293390 6850754 45520069 jrc_csen_en
293390 5689354 45248662 jrc_csen_cs

293217 4579643 46079813 jrc_csfi_fi
293217 5613984 44607159 jrc_csfi_cs

286087 6745507 47739584 jrc_csnl_nl
286087 5488990 43633276 jrc_csnl_cs

305852 5748524 47899596 jrc_cspl_pl
305852 5705552 45248680 jrc_cspl_cs

- soubory jsou ve formátu UTF-8 (kromě anglického)

- zarovnání je po odstavcích, ale odstavce jsou většinou krátké, dokonce často 
kratší než věty

- zarovnání není 100% spolehlivé

- segmenty jsou odděleny znakem nového řádku a navíc je každý označen <s1> ... 
</s1> v prvním jazyce, <s2> ... </s2> ve druhém jazyce

- prázdné segmenty (třeba při zarovnání 1:0) jsou označeny takto: <s1></s1> nebo 
<s2></s2>

- je-li v segmentu víc odstavců (třeba při zarovnání 2:1), jsou označeny takto: 
<p> ... </p>

Při načítání souborů do ParaConku je třeba nastavit:

- Align format: New Line Delimiter

- Parallel texts: 2

- Pro oba jazyky:

-- Font/Skript: (středoevropský/západní)

-- Format/Sentences: HTML/SGML markers, Start tag: p, Stop tag: /p

-- zadat správné soubory (Add..)

-- klepnout na názvy souborů a zaškrtnout políčko UTF-8 (ne u anglického souboru)