Wiki spuštěna 24. 7. 2025

Úprava UTF-8 používajícího spřežky

  • použít program norm-utf8:
    norm-utf8
    #!/usr/bin/env python
     
    import sys, unicodedata
     
    if __name__ == '__main__': 
      if len(sys.argv) != 2:
        sys.exit(1)
     
      filename = sys.argv[1]
      f = open(filename, 'r')
      ori = unicode(f.read(), 'utf-8')
      res = unicodedata.normalize('NFC', ori).encode('utf-8')
      f.close
     
      print res,
  • anebo utilitu uconv pro převod do NFC z NFD
    uconv -f utf8 -t utf8 -x nfc

Odstranění BOM

sed 's/^\xEF\xBB\xBF//'

nebo

tail –bytes=+4 text.txt

(pokud je BOM hned na začátku souboru)


QR Code
QR Code wiki:user:skoumal:utf8 (generated for current page)