Wiki spuštěna 24. 7. 2025

Obrábění litevských korpusů

Tagování

  • Připravit adresáře IL7, LEM, TAG a XML
  • Z trnky zkopírovat <fajl>.lt-00.xml do XML
  • Převést do IL7:
    cd XML
    for ff in *.xml; do
        echo $ff
        u2lat7ent.pl < $ff |\
        recode u8..l7 |\
        perl -pe 's:(<s\ [^>]+>):$1\n:g' |\
        perl -pe 's:(</s>):\n$1:g' |\
        perl -pe 's:(</?[uib]>):\n$1\n:g' |\
        perl -pe 's:(</?subscrpt>):\n$1\n:g' |\
        perl -pe 's:(</?suprscrpt>):\n$1\n:g' |\
        perl -pe 's:(</?s?ti>):\n$1\n:g' > ../IL7/${ff%.xml}.il7
    done

    nebo použít hotový skript xml2il7.sh (je třeba být v adresáři nad XML)

  • Je-li soubor moc velký, nasekat ho pomocí skriptu splitxml na kousky:
    splitxml Acquis < Acquis.lt-00.il7
  • Přejít na PC, přetáhnout <fajl>.lt-00.il7 do adresáře H:\Dokumenty\Cz-Lt-Dict\Tagger\texts a spustit tagger.exe (na něj jít přes ikonu Počítač!)
  • Výsledný <fajl>.lt-00.il7.lem přetáhnout do adresáře LEM a nezapomenout udělat dos2unix!!!:
    for ff in *; do dos2unix $ff; done
  • Převést do XML:
    lem2tag < LEM/<fajl>.lt-00.il7.lem > TAG/<fajl>.lt-00.tag.xml

    anebo

    cd LEM
    for ff in *; do echo $ff; lem2tag.sh < $ff > ../TAG/${ff%.il7.lem}.tag.xml; done

QR Code
QR Code wiki:user:skoumal:korpusy (generated for current page)