Форум сайта python.su
Добрый день, помогите пожалуйста разобратся с кодировкой при парсинге сайта. У меня есть такой код
from urllib.request import urlopen URL = 'http://www.proglive.ru/courses' f = urlopen(URL) list_html = f.read().decode('utf-8') print(list_html)
Офлайн
Во-первых, кодировку надо брать из http-заголовка Content-Type специальным методом.
>>> import urllib.request >>> >>> data = urllib.request.urlopen('http://www.yandex.ru') >>> data.info().get_charsets() ['utf-8'] >>>
Отредактировано py.user.next (Июнь 20, 2015 11:54:17)
Офлайн
py.user.nextСпасибо, заработало))
Во-первых, кодировку надо брать из http-заголовка Content-Type специальным методом.
Офлайн