Задача такая: есть файл. Из него надо прочитать символы как utf-8.
Написал такое:
def LoadFile():
f = io.open('myfile', 'r', 16384, 'utf8')
res = f.read()
f.close()
return res
c “UnicodeEncodeError: ‘charmap’ codec can't encode character ‘\u3826’ in position 568: character maps to <undefined>”
При том, что содержимое писалось точно в utf-8.
Как это забороть и получить-таки строку? Как вообще лучше парсить файл, в котором может быть несколько кодировок? По байтам? Можно пример для третьего питона: как извлечь b'345' из b'123456'?