Úprava UTF-8 používajícího spřežky
- použít program
norm-utf8
:- norm-utf8
#!/usr/bin/env python import sys, unicodedata if __name__ == '__main__': if len(sys.argv) != 2: sys.exit(1) filename = sys.argv[1] f = open(filename, 'r') ori = unicode(f.read(), 'utf-8') res = unicodedata.normalize('NFC', ori).encode('utf-8') f.close print res,
- anebo utilitu
uconv
pro převod do NFC z NFDuconv -f utf8 -t utf8 -x nfc
Odstranění BOM
sed 's/^\xEF\xBB\xBF//'
nebo
tail –bytes=+4 text.txt
(pokud je BOM hned na začátku souboru)