Найти - Пользователи
Полная версия: Проблема с кодировкой в lxml
Начало » Python для новичков » Проблема с кодировкой в lxml
1
temagr
Здравствуйте.
Знаю что по этой теме тонны материалов, но что-то как-то всё не то.

В общем расскажу про свой случай.

# -*- coding: utf-8 -*-

from ghost import Ghost
from lxml import html,etree

ghost = Ghost()

page, extra_resources = ghost.open('httpадрес-сайта/')

res = ghost.content

tree = etree.parse(res)

Кодировка страницы - utf-8.
Кодировка у ghost.content и соответственно у res - unicode.

Скрипт завершается небезызвестным UnicodeDecodeError.

Спасибо заранее.
py.user.next
загрузи страницу вручную и передай файл в lxml.html.parse()
lorien
tree = etree.parse(res.encode('utf-8'))

:)
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB