Уведомления

Группа в Telegram: @pythonsu

#1 Апрель 16, 2011 19:06:45

kurono_kun
От:
Зарегистрирован: 2011-04-16
Сообщения: 6
Репутация: +  0  -
Профиль   Отправить e-mail  

docx to html, проблемы с кодировкой

Добрый вечер всем!
Стоит задача конвертировать docx-файл в html. Все бы хорошо, но при попытке вывести в выходной файл русские символы, выдается ошибка: UnicodeEncodeError: ‘ascii’ codec can't encode character u'XXXX' in position X: ordinal not in range (128)
В начале программы стоит # -*- coding: ‘utf-8’ -*-
xml парсил с помощью xml.dom.minidom.parse()
Ошибка вылезает при выводе информации в файл, была мысль, что, возможно, следует создавать выходной файл с какими-то специальными параметрами.
Заранее спасибо за помощь :)



Офлайн

#2 Апрель 17, 2011 22:01:59

zheromo
От:
Зарегистрирован: 2010-10-02
Сообщения: 356
Репутация: +  2  -
Профиль   Отправить e-mail  

docx to html, проблемы с кодировкой

.encode('utf-8')



Офлайн

#3 Апрель 18, 2011 07:50:51

kurono_kun
От:
Зарегистрирован: 2011-04-16
Сообщения: 6
Репутация: +  0  -
Профиль   Отправить e-mail  

docx to html, проблемы с кодировкой

zheromo
спасибо за совет)

помогло это:

# -*- coding: 'utf-16' -*- 
import codecs
import unicodedata
f = codecs.open('ХХХ', encoding = 'utf-16', mode = 'w')



Офлайн

#4 Апрель 18, 2011 08:08:45

Андрей Светлов
От:
Зарегистрирован: 2007-05-15
Сообщения: 3137
Репутация: +  14  -
Профиль   Адрес электронной почты  

docx to html, проблемы с кодировкой

Простите, а за какой надобностью вы пишите
# -*- coding: ‘utf-16’ -*-
???



Офлайн

#5 Апрель 18, 2011 18:04:33

kurono_kun
От:
Зарегистрирован: 2011-04-16
Сообщения: 6
Репутация: +  0  -
Профиль   Отправить e-mail  

docx to html, проблемы с кодировкой

Это, видимо, от прошлых попыток осталось… Действительно, без этой строчки тоже все работает.



Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version