Найти - Пользователи
Полная версия: проблема с кодировками при парсинге xml
Начало » Python для новичков » проблема с кодировками при парсинге xml
1 2
Sergey
Берем текст из xml и получаем вот такую бяку
u'\u0422\u0435\u043c\u0430

когда делаем
text.encode('cp1251')

получаем такое:
\xd2\xe5\xec\xe0

как достать текст с кодировкой cp1251 ?
Dimka665
это и есть текст в кодировке cp1251.
просто \xd2\xe5\xec\xe0 - представление текста ascii-символами.
Sergey
Dimka665
это и есть текст в кодировке cp1251.
просто \xd2\xe5\xec\xe0 - представление текста ascii-символами.
а как сделать из него читабельный текст?
expee
>>> i = u'\u0422\u0435\u043c\u0430'
>>> print i
Тема
Sergey
expee
>>> i = u'\u0422\u0435\u043c\u0430'
>>> print i
Тема
а как если текст находиться в переменной?
expee
Sergey
а как если текст находиться в переменной?
А в моем коде он в чем находится?
Sergey
expee
Sergey
а как если текст находиться в переменной?
А в моем коде он в чем находится?
сорри за школьные вопросы, но все же
response = urllib.urlopen(url)
element = ET.XML(response.read())
info = []
for subelement in element:
if subelement.tag=="tcy":
info.append(subelement.attrib["value"])

print info
выводиться абракадабра, что нужно чтоб было читабельно а не в аски
sypper-pit
Sergey
Берем текст из xml и получаем вот такую бяку
u'\u0422\u0435\u043c\u0430

когда делаем
text.encode('cp1251')

получаем такое:
\xd2\xe5\xec\xe0

как достать текст с кодировкой cp1251 ?
если у вас выходит
u'\u0422\u0435\u043c\u0430
нет завершаюшего
'
sypper-pit
>>> info = '\xd2\xe5\xec\xe0'
>>> print info.decode('cp1251')
Тема
>>> info = u'\u0422\u0435\u043c\u0430'
>>> print info
Тема
>>> print info.encode('cp1251')
╥хьр
>>> poi = info.encode('cp1251')
>>> poi.decode('cp1251')
u'\u0422\u0435\u043c\u0430'
>>> print poi.decode('cp1251')
Тема
>>>
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB