2.2.2007
Doplněny údaje o velikosti textů z korpusu Acquis Communautaire, opraveno značkování českého a anglického textu.
1.2.2007
Přidány české a anglické texty z Acquis Communautaire, tentokrát bezchybně zarovnané a opět připravené k načtení do ParaConku. Díky Ivone Ferraové, Josepu Bonetovi a Achimu Blattovi z Generálního ředitelství pro překlady Evropské komise. Další jazyky budou, až komise rozhodne o jednotných podmínkách poskytování těchto textů.
aclux_csen.zip - kódování UTF-8, segmenty (věty) odděleny značkami ...
A_aclux_csen.zip - exportováno z ParaConku, kódování CP-1250, segmenty (věty) odděleny značkami ...
česká část: 704 195 segmentů, 10 897 251 slov, 91 064 407 znaků (včetně značek)
anglická část: 704 195 segmentů, 13 201 630 slov, 90 789 668 znaků (včetně značek)
6.10.2006
- pro češtinu a angličtinu spočítáno, kolik je v souborech tvarů slov
(= řetězců alfabetických znaků, bez spojovníků, apostrofů apod.,
ignoruje se rozdíl mezi malými a velkými písmeny),
a to jako celkový počet všech výskytů (tokens)
a taky jako počet různých tvarů (types):
tokens types
cs 5 901 575 76 382
en 7 055 172 32 029
- přidány soubory:
jrc_cs_forms_alphasort ... seznam tvarů v českém souboru, setříděný abecedně
jrc_cs_forms_freqsort ... seznam tvarů v českém souboru, setříděný frekvenčně
jrc_en_forms_alphasort ... seznam tvarů v anglickém souboru, setříděný abecedně
jrc_en_forms_freqsort ... seznam tvarů v anglickém souboru, setříděný frekvenčně
26.6.2006
- u textů v souborech csde.zip, csfi.zip, csnl.zip
byly prázdné segmenty označeny značkou , případně ,
opraveno na , případně
23.6.2006
Několik automaticky zarovnaných paralelních textů z korpusu Acquis Communautaire
(http://langtech.jrc.it/JRC-Acquis.html), připravených k načtení do ParaConku (http://www.athel.com/para.html):
csde.zip
csen.zip
csfi.zip
csnl.zip
cspl.zip
- každý archiv (*.zip) obsahuje dva soubory, český a cizí, následuje přehled souborů s počtem segmentů, slov a znaků (včetně značek)
291875 5983678 47974116 jrc_csde_de
291875 5531152 44006987 jrc_csde_cs
293390 6850754 45520069 jrc_csen_en
293390 5689354 45248662 jrc_csen_cs
293217 4579643 46079813 jrc_csfi_fi
293217 5613984 44607159 jrc_csfi_cs
286087 6745507 47739584 jrc_csnl_nl
286087 5488990 43633276 jrc_csnl_cs
305852 5748524 47899596 jrc_cspl_pl
305852 5705552 45248680 jrc_cspl_cs
- soubory jsou ve formátu UTF-8 (kromě anglického)
- zarovnání je po odstavcích, ale odstavce jsou většinou krátké, dokonce často
kratší než věty
- zarovnání není 100% spolehlivé
- segmenty jsou odděleny znakem nového řádku a navíc je každý označen ...
v prvním jazyce, ... ve druhém jazyce
- prázdné segmenty (třeba při zarovnání 1:0) jsou označeny takto: nebo
- je-li v segmentu víc odstavců (třeba při zarovnání 2:1), jsou označeny takto:
...
Při načítání souborů do ParaConku je třeba nastavit:
- Align format: New Line Delimiter
- Parallel texts: 2
- Pro oba jazyky:
-- Font/Skript: (středoevropský/západní)
-- Format/Sentences: HTML/SGML markers, Start tag: p, Stop tag: /p
-- zadat správné soubory (Add..)
-- klepnout na názvy souborů a zaškrtnout políčko UTF-8 (ne u anglického souboru)