pyuser
давайте не будем трогать lxml smile
Нет позвольте, я всё-таки трону.
lxml.html неправильно обрабатывает входной поток байт, что отчетливо видно в ситуации топик-стартера. Он преобразует в уникод быйты, не декодируя кодировку.
Если на вход document_fromstring подать уже уникодную строчку, то всё будет лучше:
html = lxml.html.document_fromstring(data.decode('utf8'))
Так наверно лучше всего и поступать. Но всё-равно странное поведение.
pyuser
хотите получить строку в определенной кодировке, так просто укажите ее smile у метода tostring есть параметр encoding
У HtmlElement нету tostring метода.
pyuser
еще раз тему перечитал. возникли сомнения в плане оси, мы про виндовоз говорим?
alphaville
File “C:\Python25\lib\encodings\cp866.py”, line 12, in encode