Obrábění litevských korpusů
Tagování
- Připravit adresáře IL7, LEM, TAG a XML
- Z trnky zkopírovat
<fajl>.lt-00.xml
do XML - Převést do IL7:
cd XML for ff in *.xml; do echo $ff u2lat7ent.pl < $ff |\ recode u8..l7 |\ perl -pe 's:(<s\ [^>]+>):$1\n:g' |\ perl -pe 's:(</s>):\n$1:g' |\ perl -pe 's:(</?[uib]>):\n$1\n:g' |\ perl -pe 's:(</?subscrpt>):\n$1\n:g' |\ perl -pe 's:(</?suprscrpt>):\n$1\n:g' |\ perl -pe 's:(</?s?ti>):\n$1\n:g' > ../IL7/${ff%.xml}.il7 done
nebo použít hotový skript
xml2il7.sh
(je třeba být v adresáři nad XML) - Je-li soubor moc velký, nasekat ho pomocí skriptu
splitxml
na kousky:splitxml Acquis < Acquis.lt-00.il7
- Přejít na PC, přetáhnout
<fajl>.lt-00.il7
do adresářeH:\Dokumenty\Cz-Lt-Dict\Tagger\texts
a spustittagger.exe
(na něj jít přes ikonu Počítač!) - Výsledný
<fajl>.lt-00.il7.lem
přetáhnout do adresáře LEM a nezapomenout udělatdos2unix
!!!:for ff in *; do dos2unix $ff; done
- Převést do XML:
lem2tag < LEM/<fajl>.lt-00.il7.lem > TAG/<fajl>.lt-00.tag.xml
anebo
cd LEM for ff in *; do echo $ff; lem2tag.sh < $ff > ../TAG/${ff%.il7.lem}.tag.xml; done