Уведомления

Группа в Telegram: @pythonsu

#1 Май 12, 2010 12:09:47

boris_blade
От:
Зарегистрирован: 2009-09-28
Сообщения: 30
Репутация: +  0  -
Профиль   Отправить e-mail  

регулярные выражения

Всем привет.
Имею следущее.
Есть некий скрипт который с веб-странички выдирает слово на русском языке
которое заключен в в тег <div>
Вот я никак не могу понять как же мне вывести его на экран
При выполнении кода, который ниже

data = urllib.urlencode(values, headers)
resp = urllib2.urlopen(url, data)
html = resp.read().decode('cp1251')
s = re.compile(r':</b><br>\s+(.*)</div>')
print s
Я получаю

<_sre.SRE_Pattern object at 0xf3e430>

А как вывести сам текст, который на вебстраничке.
Я прочитал тонну документации, но местами путаюсь.



Офлайн

#2 Май 12, 2010 12:46:06

krwlr
От:
Зарегистрирован: 2007-01-15
Сообщения: 26
Репутация: +  0  -
Профиль   Отправить e-mail  

регулярные выражения

s = re.findall(регулярное_выражение, html)
возможно.. :)



Офлайн

#3 Май 12, 2010 13:05:43

boris_blade
От:
Зарегистрирован: 2009-09-28
Сообщения: 30
Репутация: +  0  -
Профиль   Отправить e-mail  

регулярные выражения

s = re.findall(r':</b><br>\s+(.*)</div>', page)
print s
[u'\u042d\u041e\u042c\u0425\u0440 \u013f\u0420\u0441\u041f\u042e\u0440\u0440a']
Вот такую штуку на выходе получаю.
Прозреваю что это utf-8 но как поправить на читаемую не знаю


тащем-то сделал
print s
получил строку но не ту =)
буду дальше ковыряться с re



Отредактировано (Май 12, 2010 13:47:39)

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version