Next: ParaConc
Up: Přílohy
Previous: Instalace makra
Obsah
Návod k použití makra ICorpExport
- Po úspěšné instalaci by váš Word měl v nástrojové liště
obsahovat dvě nová tlačítka: ICorpExport a
CheckParagraphs (pokud byla při instalaci makra
vytvořena). Jinak jsou makra dostupná přes nabídku
Nástroje→Makro→Makra. K samotnému exportu slouží
makro ICorpExport, makro CheckParagraphs je jeho
součástí, ale dá se spustit samostatně.
- Makro nejprve uloží otevřený dokument, proto si dejte pozor na
změny, které v textu během pokusů o export uděláte. Pokud nemáte
soubor uložen ještě na jiném místě, nebude možné vzít provedené
změny po skončení práce s makrem zpět.
- Pak makro zkontroluje, zda jsou za každým odstavcem dva
znaky konce odstavce. Tuto operaci provádí i makro
CheckParagraphs, které pouze kontroluje odstavce, a to vždy od
místa, kde skončila předešlá kontrola. Makro ICorpExport musí začínat s kointrolou vždy od začátku souboru. V dlouhých textech tedy
doporučujeme následující postup:
- Export začněte spuštěním makra ICorpExport.
- Pokud makro narazí na chybu v označení odstavců, přeruší
svůj běh a umožní vám opravit chybu, kterou zároveň označí
zvýrazněním.
- Protože se dá předpokládat, že v delším textu budou ještě
další chyby, pokračujte v kontrole pomocí makra CheckParagraphs.
- Protože makro CheckParagraphs kontroluje vždy od pozice
kurzoru, může se stát, že když umístíte kurzor na volnou řádku před
další odstavec, nahlásí makro chybu i tam, kde dva znaky konce
odstavce jsou. V tomto případě stačí umístit kurzor dovnitř
předešlého odstavce a pokračovat v kontrole.
- Když dojdete na konec textu, spusťte opět makro ICorpExport a
proveďte export textu.
- Makro dále kontroluje, zda soubor neobsahuje tabulky nebo
obrázky, se kterými si neumí poradit při exportu do textového
souboru. Texty pro korpus InterCorp by takové objekty obsahovat
neměly, pokud však makro na tabulku přesto narazí, opět přeruší svou
činnost a zvýrazní objekt, který nevyhovuje podmínkám. Pokud je
obsah tabulky důležitý pro význam textu, můžete použít například
funkci Wordu Tabulka→Převést→Tabulku na text,
nebo vyjmout důležitý obsah tabulky ručně a zbytek smazat.
- Po prvních kontrolách se makro zeptá, kam má zkonvertovaný text uložit
a jak ho má pojmenovat. Zvolte požadované umístění a jméno
souboru a makro bude pokračovat ve svém běhu.
- S výše uvedenými typy chyb, které makro kontroluje v první části,
se budete běžně setkávat a jejich oprava by měla být
jednoduchá. Dále uvedené chyby v dalších krocích konverze by se měly
vyskytovat jen výjimečně a je třeba věnovat zvýšenou pozornost
důvodu, který vedl k jejich výskytu.
- Následuje nahrazení všech znaků, které brání úspěšnému
zpracování textu v ParaConku za kódy (tzv. znakové entity) formátu
HTML nebo Unicode. Do této kategorie spadají znaky <, >, &, které
v upraveném textu slouží k oddělení značkování textu od textu
samotného, různé druhy uvozovek atd. Protože ParaConc rozpoznává
pouze základní typ uvozovek, jsou informace o ostatních druzích
uvozovek uloženy jako entity a po dobu zpracování v ParaConcu se tak i
zobrazují.
- Pro pozdější použití jsou do textu zaznamenány do řezy
písma pomocí značkování v textu (značky HTML –- např. <b>slova
tučně</b>).
- Následuje dotaz požadující zvolení znakové sady. Protože
ParaConc nepodporuje Unicode (neumí zároveň pracovat se znaky
z různých znakových sad v jednom korpusu), je nutné zvolit, do které
znakové sady se má daný text zkonvertovat.3 Do entit tedy musejí být převedeny všechny znaky,
které nejsou zobrazitelné ve zvolené znakové sadě. To se týká
především případu, kdy jsou v textu v jazyce, který je součástí
jedné znakové sady (např. čeština -– středoevropské jazyky) citace
z jazyka z jiné znakové sady (např. francouzština –- západoevropské
jazyky).
- V běžném jednojazyčném textu by se entity buď neměly vyskytovat
vůbec, nebo pouze ve velmi omezeném množství, snad s výjimkou
uvozovek.
- Konverze už probíhá pomocí programů v jazyce java. Makro spustí
program a čeká. Programy jsou dva a po spuštění každého z nich se zobrazí
okno příkazového řádku, zatímco makro je pozastaveno a čeká na stisk
tlačítka OK. Pokud nedojde v chodu programu k chybě, mělo by se okno
s příkazovým řádkem po dokončení operace opět samo zavřít. Vyčkejte
tedy, než program skončí (zmizí černé okno) a dejte to vědět makru
stiskem tlačítka OK.
- Pokud dojde k chybě, vypíše program chybové hlášení v okně
příkazového řádku. Tyto chyby by měly být skutečně výjimečné a pokud
si nejste jisti, proč se chyba vyskytla, raději kontaktujte hlavního
koordinátora. Zkopírujte obsah okna s chybovým hlášením do emailu a
zašlete ho na adresu martin.vavrin@ff.cuni.cz.
- Jediná
možnost, kdy program v javě neskončí a zároveň se nejedná o chybu,
nastane, pokud se už v původním textu vyskytuje entita, kterou program
nezná. V takovém případě se zeptá uživatele, zda si má tuto entitu
zapamatovat a příště na ni už neupozorňovat. Tento dotaz prosím
potvrďte jen v případě, že si jste absolutně jisti, že jde o entitu skutečně
používanou a raději až po konzultaci. Neznámým entitám věnujte
pozornost i v případě, že nehodláte potvrdit jejich zařazení do
výjimek. Pokuste se zjistit, proč se entita v textu vyskytuje a zda
nejde o překlep.
Next: ParaConc
Up: Přílohy
Previous: Instalace makra
Obsah
Alexandr Rosen
2008-03-18