Next: Načtení textů do programu Up: Projekt InterCorp – postup Previous: Segmentace po větách Obsah

Zarovnávání

Při zarovnávání se k sobě srovnají jednotlivé odstavce, ParaConc poté automaticky, na základě hranic vět a jejich délky, přiřadí k českému textu text cizí po úsecích –- segmentech, které může tvořit jedna nebo více vět. V ideálním případě by ParaConc měl přiřadit jedné české větě jednu větu z druhého jazyka (zarovnání 1:1). Pokud tuto dvojici nelze sestavit (na jedné straně je např. souvětí, zatímco na druhé dvě věty jednoduché), provede se zarovnání 1:2, 2:1, nebo i 1:3 a podobně.

V tabulce 1 je uveden příklad vstupních souborů. Nastavíte-li při exportu identifikaci segmentu pomocí značek <seg id="n"> ... </seg>, budou výstupní soubory vypadat jako v tabulce 2.

Tabulka 2 ukazuje dvě omezení programu ParaConc:
1. Značky <seg id="n"> ... </seg> jsou umístěny bez ohledu na značky pro odstavce a věty. Tento nedostatek se odstraní při konverzi do formátu TEI-XML v ÚČNK.
2. Segmenty číslo 8 až 10 nejsou zarovnány správně. Zjistíte-li takovou chybu až u exportovaných souborů, je jednodušší se vrátit o krok zpět, zarovnání opravit v programu ParaConc a soubory exportovat znovu. Správně zarovnaný text je uveden v tabulce 3.
V části 5.4 uvidíte, jak se v ParaConku opravují chyby automatického zarovnávání po větách, včetně výše uvedeného příkladu.

Zatím jsme na věty segmentovali jen české texty. Cizojazyčné texty se do ParaConku načítaly segmentované pouze na odstavce, nikoli na věty. Segmentaci na věty prováděl ParaConc automaticky při zarovnání. Nově segmentujeme na věty před zpracováním ParaConkem i cizojazyčné texty. České i cizojazyčné texty tedy mají na vstupu do ParaConku stejnou formální strukturu.

Subsections

Next: Načtení textů do programu Up: Projekt InterCorp – postup Previous: Segmentace po větách Obsah

Alexandr Rosen 2008-03-18