Найти - Пользователи
Полная версия: lxml tostring encoding='utf-8'
Начало » Python для новичков » lxml tostring encoding='utf-8'
1
quadright
import lxml.html
print lxml.html.tostring( el.xpath('td[@class="auto"]',
                                pretty_print=True,
                                encoding='utf-8',
                                )[0]
Такое выдает:
<td class=“auto”>&#1050;&#1091;&#1079;&#1086;&#1074;:<br>&#1044;&#1074;&#1080;&#1075;&#1072;&#1090;&#1077;&#1083;&#1100;: F6A-T </td>

Как сделать чтоб encoding='utf-8' заработал?
sanodin
часто выручает только такое
import HTMLParser
pars = HTMLParser.HTMLParser()
st = '&#1050;&#1091;&#1079;&#1086;&#1074;:<br>&#1044;&#1074;&#1080;&#1075;&#1072;&#1090;&#1077;&#1083;&#1100;'
print pars.unescape(st)
>> Кузов:<br>Двигатель
quadright
Благодарю, дополнительная функция, но зато наверняка.
py.user.next
quadright
Как сделать чтоб encoding='utf-8' заработал?
у .tostring() есть свой аргумент encoding

help(lxml.html.tostring)
sanodin
encoding=unicode
должен отработать
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB