Python-сообщество

Sirorezka · Июнь 17, 2011 21:27:51

Никак не получается перекодировать byte переменную в str, чтобы сохранились читаемые кириллические символы. Версия Python 3.x

Вопрос простой, но всё, что можно уже попробовал. Я хочу достать текст из docx и записать его в txt, чтобы потом строки из этого txt можно было обрабатывать.

Вот так я достаю данные из docx:
docx=zipfile.ZipFile('VeryLongWordFile.docx')
content = docx.read('word/document.xml')

Теперь переменная content имеет тип byte, и если к ней применить функцию textcontent=str(content), то в итоге вместо кириллических букв получим /xb05/xb04 и тп. Если попытаться поменять кодировку textcontent, то появляется ошибка, что не все символы поддаются перекодировке.

А если использовать str(content, “cp866”), то опять возникнет ошибка, что не все символы поддаются перекодировке.

Как переменную content перевести в строку, чтобы сохранилась возможность читать русский текст?

Андрей Светлов · Июнь 18, 2011 01:40:31

есть такое слово: utf-8

Sirorezka · Июнь 18, 2011 15:29:46

Андрей Светлов
есть такое слово: utf-8

contenttext=str(content,“utf-8”)

f1=open(“textutf-8.txt”,“w”)
f1.write (contenttext)
f1.close

Тогда как раз то, о чём я говорю - возникает ошибка записи в файл: “'charmap' codec can't encode characters in position…”

Андрей Светлов · Июнь 19, 2011 03:08:06

http://docs.python.org/py3k/library/functions.html#open
параметр с именем encoding как бы намекает, что нужно открыть файл как f1=open(“textutf-8.txt”,“w”, encoding='utf-8')

Sirorezka · Июнь 21, 2011 22:48:11

Спасибо! Это помогло

Python-сообщество

Уведомления

#1 Июнь 17, 2011 21:27:51

Перекодировка byte переменной

#2 Июнь 18, 2011 01:40:31

Перекодировка byte переменной

#3 Июнь 18, 2011 15:29:46

Перекодировка byte переменной

#4 Июнь 19, 2011 03:08:06

Перекодировка byte переменной

#5 Июнь 21, 2011 22:48:11

Перекодировка byte переменной

Board footer