Python-сообщество

boris_blade · Май 12, 2010 12:09:47

Всем привет.
Имею следущее.
Есть некий скрипт который с веб-странички выдирает слово на русском языке
которое заключен в в тег <div>
Вот я никак не могу понять как же мне вывести его на экран
При выполнении кода, который ниже

data = urllib.urlencode(values, headers)
resp = urllib2.urlopen(url, data)
html =  resp.read().decode('cp1251')
s = re.compile(r':</b><br>\s+(.*)</div>')
print s

Я получаю

<_sre.SRE_Pattern object at 0xf3e430>

А как вывести сам текст, который на вебстраничке.
Я прочитал тонну документации, но местами путаюсь.

krwlr · Май 12, 2010 12:46:06

s = re.findall(регулярное_выражение, html)

возможно.. :)

boris_blade · Май 12, 2010 13:05:43

s = re.findall(r':</b><br>\s+(.*)</div>', page)
print s

[u'\u042d\u041e\u042c\u0425\u0440 \u013f\u0420\u0441\u041f\u042e\u0440\u0440a']

Вот такую штуку на выходе получаю.
Прозреваю что это utf-8 но как поправить на читаемую не знаю

тащем-то сделал
print s
получил строку но не ту =)
буду дальше ковыряться с re

Отредактировано (Май 12, 2010 13:47:39)

Python-сообщество

Уведомления

#1 Май 12, 2010 12:09:47

регулярные выражения

#2 Май 12, 2010 12:46:06

регулярные выражения

#3 Май 12, 2010 13:05:43

регулярные выражения

Board footer