Уведомления

Группа в Telegram: @pythonsu

#1 Окт. 23, 2013 20:32:35

Prodimentos
Зарегистрирован: 2013-10-23
Сообщения: 4
Репутация: +  0  -
Профиль   Отправить e-mail  

Проблема с кодировкой при работе с urllib

Добрый вечер, всем!
python 2.7 + eclipse + PyDev

Код:

import urllib
import re
regex = '<title>(.+?)</title>'
pattern= re.compile(regex)
htmlfile = urllib.urlopen ("http://ya.ru")
htmltext = htmlfile.read()
titles = re.findall(pattern,htmltext)
print titles
Получается:
['\xd0\xaf\xd0\xbd\xd0\xb4\xd0\xb5\xd0\xba\xd1\x81']
С буржуйских сайтов все норм.

Отредактировано FishHook (Окт. 23, 2013 20:33:04)

Офлайн

#2 Окт. 23, 2013 20:33:46

FishHook
От:
Зарегистрирован: 2011-01-08
Сообщения: 8312
Репутация: +  568  -
Профиль   Отправить e-mail  

Проблема с кодировкой при работе с urllib

for x in titles:
    print x



Офлайн

#3 Окт. 23, 2013 20:38:26

Prodimentos
Зарегистрирован: 2013-10-23
Сообщения: 4
Репутация: +  0  -
Профиль   Отправить e-mail  

Проблема с кодировкой при работе с urllib

FFishHook вы чудо!
Получилось!
Если не трудно можете объяснить?

Офлайн

#4 Окт. 23, 2013 20:57:37

Prodimentos
Зарегистрирован: 2013-10-23
Сообщения: 4
Репутация: +  0  -
Профиль   Отправить e-mail  

Проблема с кодировкой при работе с urllib

А если выпадает вот такое:

[code python]�����. ������. - ����� - �������� � ������ �������. ������.[/code]

Офлайн

#5 Окт. 23, 2013 21:15:26

Prodimentos
Зарегистрирован: 2013-10-23
Сообщения: 4
Репутация: +  0  -
Профиль   Отправить e-mail  

Проблема с кодировкой при работе с urllib

Сам решил проблему так:

print x.decode('cp1251')

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version