Python-сообщество

fortunadopo · Ноя. 11, 2013 17:36:09

#!/usr/bin/env python
# -*- coding: utf-8 -*-
from urllib2 import urlopen

page = urlopen('http://yasko.by/').read().decode('utf-8')

page2 = urlopen('http://pogoda.yandex.ru/moscow/').read().decode('utf-8')
в строке с page , ошибка “UnicodeDecodeError: ‘utf8’ codec can't decode byte 0xc3 in position 32: invalid continuation byte”, тем не менее в строке с page2 - все нормально… как так получается?, спасибо.

bismigalis · Ноя. 11, 2013 18:07:29

первая страница в cp1251

fortunadopo · Ноя. 11, 2013 18:10:24

А как мне получить слово “Главная” из title на русском языке, а не “\u041e\u0428\u0418\u0411\u041a\u0410”?

fortunadopo · Ноя. 11, 2013 18:23:15

ага, спасибо, я просто запускал скрипт, а потом в консоли набирал
>page
и получал иероглифы, а нужно было
>print page

ещё такой вопрос… и как теперь декодировать страницы, чтобы не падал код, или нужно все время заглядывать в кодировку страницы?

@cckyi_boxxx · Ноя. 11, 2013 19:14:50

как правило в странице имееться следующее :

<meta http-equiv="Content-Type" content="text/html;charset=utf-8">

пишете регулярку и кормите ее re.findall()

выглядеть этог будет приблизительно так

import re
encoding = re.findall(r'.*?charset=(.*?).*?' , some_string )[0]

ps: регулярки пишу криво кто может сбацать лучше пульните в топик

Отредактировано @cckyi_boxxx (Ноя. 11, 2013 19:17:38)

o7412369815963 · Ноя. 11, 2013 21:56:09

Заюзайте requests, он определяет и декодирует:

r = requests.get('http://ya.ru')
r.text

Запуск программ из Python
Кодировки в python
Мой блог

py.user.next · Ноя. 12, 2013 20:18:57

для третьего

>>> import urllib.request
>>> 
>>> data = urllib.request.urlopen('http://www.yandex.ru')
>>> data.headers.get_content_charset()
'utf-8'
>>> data.headers.get_charsets()
['utf-8']
>>> data.close()
>>>

Отредактировано py.user.next (Ноя. 12, 2013 20:21:19)

Python-сообщество

Уведомления

#1 Ноя. 11, 2013 17:36:09

Python 2.7 , проблема с decode('utf-8')

#2 Ноя. 11, 2013 18:07:29

Python 2.7 , проблема с decode('utf-8')

#3 Ноя. 11, 2013 18:10:24

Python 2.7 , проблема с decode('utf-8')

#4 Ноя. 11, 2013 18:23:15

Python 2.7 , проблема с decode('utf-8')

#5 Ноя. 11, 2013 19:14:50

Python 2.7 , проблема с decode('utf-8')

#6 Ноя. 11, 2013 21:56:09

Python 2.7 , проблема с decode('utf-8')

#7 Ноя. 12, 2013 20:18:57

Python 2.7 , проблема с decode('utf-8')

Board footer