Уведомления

Группа в Telegram: @pythonsu

#1 Апрель 4, 2014 21:51:21

temagr
Зарегистрирован: 2014-04-04
Сообщения: 1
Репутация: +  0  -
Профиль   Отправить e-mail  

Проблема с кодировкой в lxml

Здравствуйте.
Знаю что по этой теме тонны материалов, но что-то как-то всё не то.

В общем расскажу про свой случай.

# -*- coding: utf-8 -*-

from ghost import Ghost
from lxml import html,etree

ghost = Ghost()

page, extra_resources = ghost.open('httpадрес-сайта/')

res = ghost.content

tree = etree.parse(res)

Кодировка страницы - utf-8.
Кодировка у ghost.content и соответственно у res - unicode.

Скрипт завершается небезызвестным UnicodeDecodeError.

Спасибо заранее.

Офлайн

#2 Апрель 4, 2014 23:48:51

py.user.next
От:
Зарегистрирован: 2010-04-29
Сообщения: 10016
Репутация: +  857  -
Профиль   Отправить e-mail  

Проблема с кодировкой в lxml

загрузи страницу вручную и передай файл в lxml.html.parse()



Офлайн

#3 Апрель 6, 2014 14:43:29

lorien
От:
Зарегистрирован: 2006-08-20
Сообщения: 755
Репутация: +  37  -
Профиль  

Проблема с кодировкой в lxml

tree = etree.parse(res.encode('utf-8'))

:)

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version