Уведомления

Группа в Telegram: @pythonsu

#1 Июнь 18, 2012 13:46:07

lorien
От:
Зарегистрирован: 2006-08-20
Сообщения: 755
Репутация: +  37  -
Профиль  

Не могу справится с кракозябрами

> Кодировка страницы UTF-8. Страница частично испорчена, но те данные которые я оттуда беру нормальные. Т.е. браузер их нормально отображает.

Тогда так:
ubody = body.decode('utf-8', ‘ignore’)
tree = lxml.html.fromstring(ubody)

Офлайн

#2 Июнь 18, 2012 14:32:10

SergiK
От:
Зарегистрирован: 2011-06-13
Сообщения: 12
Репутация: +  0  -
Профиль   Отправить e-mail  

Не могу справится с кракозябрами

lorien
> Кодировка страницы UTF-8. Страница частично испорчена, но те данные которые я оттуда беру нормальные. Т.е. браузер их нормально отображает.

Тогда так:
ubody = body.decode('utf-8', ‘ignore’)
tree = lxml.html.fromstring(ubody)

а как получить отдельно только то, что в body?



Офлайн

#3 Июнь 18, 2012 15:51:36

lorien
От:
Зарегистрирован: 2006-08-20
Сообщения: 755
Репутация: +  37  -
Профиль  

Не могу справится с кракозябрами

эээ

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version