Python-сообщество

Prodimentos · Окт. 23, 2013 20:32:35

Добрый вечер, всем!
python 2.7 + eclipse + PyDev

Код:

import urllib
import re
regex = '<title>(.+?)</title>'
pattern= re.compile(regex)
htmlfile = urllib.urlopen ("http://ya.ru")
htmltext = htmlfile.read()
titles = re.findall(pattern,htmltext)
print titles

Получается:

['\xd0\xaf\xd0\xbd\xd0\xb4\xd0\xb5\xd0\xba\xd1\x81']

С буржуйских сайтов все норм.

Отредактировано FishHook (Окт. 23, 2013 20:33:04)

FishHook · Окт. 23, 2013 20:33:46

for x in titles:
    print x

Prodimentos · Окт. 23, 2013 20:38:26

FFishHook вы чудо!
Получилось!
Если не трудно можете объяснить?

Prodimentos · Окт. 23, 2013 20:57:37

А если выпадает вот такое:

[code python]�����. ������. - ����� - �������� � ������ �������. ������.[/code]

Prodimentos · Окт. 23, 2013 21:15:26

Сам решил проблему так:

print x.decode('cp1251')

Python-сообщество

Уведомления

#1 Окт. 23, 2013 20:32:35

Проблема с кодировкой при работе с urllib

#2 Окт. 23, 2013 20:33:46

Проблема с кодировкой при работе с urllib

#3 Окт. 23, 2013 20:38:26

Проблема с кодировкой при работе с urllib

#4 Окт. 23, 2013 20:57:37

Проблема с кодировкой при работе с urllib

#5 Окт. 23, 2013 21:15:26

Проблема с кодировкой при работе с urllib

Board footer