Python-сообщество

AgentToxa · Июнь 25, 2016 17:48:23

Изучаю парсинг сайтов. Только начала составлять скрипт. При попытке декодировать полученный файл, выдаёт ошибку, указанную в скриншоте. Вот исходный код:

from urllib.request import urlopen
from urllib.parse import urljoin
from lxml.html import fromstring
from lxml.html import parse

URL = 'http://www.proglive.ru/courses'
ITEM_PATH = ‘.wrapper.learn.section-inner’

def parse_courses():
f = urlopen(URL)
list_html = f.read().decode(“utf_8”)
#Содержит html код
print(list_html)

def main():
parse_courses()

if __name__ == ‘__main__’:
main()

Прикреплённый файлы:
Скриншот (2016.06.26 16-47-57).jpg (75,2 KБ)

AgentToxa · Июнь 25, 2016 18:15:03

Всё, разобрался. Проблемы оказывается с Виносовской консолью. Когда записываю данные в файл, а не вывожу на консоль, всё хорошо работает.

papuas · Июнь 29, 2016 12:30:44

\xA9 это 16-ричная последовательность для символа copyright.

Отредактировано papuas (Июнь 29, 2016 12:31:14)

Python-сообщество

Уведомления

#1 Июнь 25, 2016 17:48:23

Ошибка при decode("utf_8")

#2 Июнь 25, 2016 18:15:03

Ошибка при decode("utf_8")

#3 Июнь 29, 2016 12:30:44

Ошибка при decode("utf_8")

Board footer