====== Obrábění litevských korpusů ====== ===== Tagování ===== * Připravit adresáře IL7, LEM, TAG a XML * Z trnky zkopírovat ''.lt-00.xml'' do XML * Převést do IL7: cd XML for ff in *.xml; do echo $ff u2lat7ent.pl < $ff |\ recode u8..l7 |\ perl -pe 's:(]+>):$1\n:g' |\ perl -pe 's:():\n$1:g' |\ perl -pe 's:():\n$1\n:g' |\ perl -pe 's:():\n$1\n:g' |\ perl -pe 's:():\n$1\n:g' |\ perl -pe 's:():\n$1\n:g' > ../IL7/${ff%.xml}.il7 done nebo použít hotový skript ''xml2il7.sh'' (je třeba být v adresáři nad XML) * Je-li soubor moc velký, nasekat ho pomocí skriptu ''splitxml'' na kousky:splitxml Acquis < Acquis.lt-00.il7 * Přejít na PC, přetáhnout ''.lt-00.il7'' do adresáře ''H:\Dokumenty\Cz-Lt-Dict\Tagger\texts'' a spustit ''tagger.exe'' (na něj jít přes ikonu Počítač!) * Výsledný ''.lt-00.il7.lem'' přetáhnout do adresáře LEM a nezapomenout udělat ''dos2unix''!!!:for ff in *; do dos2unix $ff; done * Převést do XML: lem2tag < LEM/.lt-00.il7.lem > TAG/.lt-00.tag.xml anebo cd LEM for ff in *; do echo $ff; lem2tag.sh < $ff > ../TAG/${ff%.il7.lem}.tag.xml; done