2.2.2007 Doplněny údaje o velikosti textů z korpusu Acquis Communautaire, opraveno značkování českého a anglického textu. 1.2.2007 Přidány české a anglické texty z Acquis Communautaire, tentokrát bezchybně zarovnané a opět připravené k načtení do ParaConku. Díky Ivone Ferraové, Josepu Bonetovi a Achimu Blattovi z Generálního ředitelství pro překlady Evropské komise. Další jazyky budou, až komise rozhodne o jednotných podmínkách poskytování těchto textů. aclux_csen.zip - kódování UTF-8, segmenty (věty) odděleny značkami ... A_aclux_csen.zip - exportováno z ParaConku, kódování CP-1250, segmenty (věty) odděleny značkami ... česká část: 704 195 segmentů, 10 897 251 slov, 91 064 407 znaků (včetně značek) anglická část: 704 195 segmentů, 13 201 630 slov, 90 789 668 znaků (včetně značek) 6.10.2006 - pro češtinu a angličtinu spočítáno, kolik je v souborech tvarů slov (= řetězců alfabetických znaků, bez spojovníků, apostrofů apod., ignoruje se rozdíl mezi malými a velkými písmeny), a to jako celkový počet všech výskytů (tokens) a taky jako počet různých tvarů (types): tokens types cs 5 901 575 76 382 en 7 055 172 32 029 - přidány soubory: jrc_cs_forms_alphasort ... seznam tvarů v českém souboru, setříděný abecedně jrc_cs_forms_freqsort ... seznam tvarů v českém souboru, setříděný frekvenčně jrc_en_forms_alphasort ... seznam tvarů v anglickém souboru, setříděný abecedně jrc_en_forms_freqsort ... seznam tvarů v anglickém souboru, setříděný frekvenčně 26.6.2006 - u textů v souborech csde.zip, csfi.zip, csnl.zip byly prázdné segmenty označeny značkou , případně , opraveno na , případně 23.6.2006 Několik automaticky zarovnaných paralelních textů z korpusu Acquis Communautaire (http://langtech.jrc.it/JRC-Acquis.html), připravených k načtení do ParaConku (http://www.athel.com/para.html): csde.zip csen.zip csfi.zip csnl.zip cspl.zip - každý archiv (*.zip) obsahuje dva soubory, český a cizí, následuje přehled souborů s počtem segmentů, slov a znaků (včetně značek) 291875 5983678 47974116 jrc_csde_de 291875 5531152 44006987 jrc_csde_cs 293390 6850754 45520069 jrc_csen_en 293390 5689354 45248662 jrc_csen_cs 293217 4579643 46079813 jrc_csfi_fi 293217 5613984 44607159 jrc_csfi_cs 286087 6745507 47739584 jrc_csnl_nl 286087 5488990 43633276 jrc_csnl_cs 305852 5748524 47899596 jrc_cspl_pl 305852 5705552 45248680 jrc_cspl_cs - soubory jsou ve formátu UTF-8 (kromě anglického) - zarovnání je po odstavcích, ale odstavce jsou většinou krátké, dokonce často kratší než věty - zarovnání není 100% spolehlivé - segmenty jsou odděleny znakem nového řádku a navíc je každý označen ... v prvním jazyce, ... ve druhém jazyce - prázdné segmenty (třeba při zarovnání 1:0) jsou označeny takto: nebo - je-li v segmentu víc odstavců (třeba při zarovnání 2:1), jsou označeny takto:

...

Při načítání souborů do ParaConku je třeba nastavit: - Align format: New Line Delimiter - Parallel texts: 2 - Pro oba jazyky: -- Font/Skript: (středoevropský/západní) -- Format/Sentences: HTML/SGML markers, Start tag: p, Stop tag: /p -- zadat správné soubory (Add..) -- klepnout na názvy souborů a zaškrtnout políčko UTF-8 (ne u anglického souboru)