DjangoBB LoFi version

Полная версия: вылавливать русский текст с помощью регулярных выражений

Начало » Python для новичков » вылавливать русский текст с помощью регулярных выражений

esal

Янв. 18, 2011 00:15:34

ТЕКСТ:
</div></td><td><a href="http://kseniya-smetaneva.ru/“>ваша стэлла</a></td><td>пока !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!</td><td style=”white-space: nowrap;“>11 января</td><td></td></tr>

Мой код:
nickre = re.compile('(.)(.*?)</a>') #врезультате должно получится вот так('в', ‘аша стэлла’), но в результате работает только с англ буквами

try:
request = urllib2.Request(url)
request.add_header(”User-Agent“, ”Crawler")
opener = urllib2.build_opener()
msg = opener.open(request).read()
except:
return

nicklist = nickre.findall(msg)
if len(nicklist) > 0:
nick = …
…

Мне нужно с помощью регулярки выловить текст в ваша стэлла</a> и сохранить его в переменную nick, но для русских имен не получается.

o7412369815963

Янв. 18, 2011 04:30:31

переведи все в уникод (текст и регулярку) и добавь флаг re.UNICODE (re.U)

esal

Янв. 18, 2011 19:21:45

регулярку поменял
mutualregex = re.compile(ur'<a\shref=“(.*?)”>', re.UNICODE)

часть функции:
dmsg = msg.decode('utf-8')
nicklist = nick.findall(dmsg)
print nicklist

получаю в результате:

[(u'\u0420', u'\u0430\u043f\u0443\u043d\u0446\u0435\u043b\u044c')
(u'\u0413', u'\u0430\u0440\u0440\u0438 \u0414\u0436\u0435\u0439\u043c\u0441 \u041f\u043e\u0442\u0442\u0435\u0440')
(u'\u0413', u'\u0435\u0440\u043c\u0438-\u0411\u043b\u0443\u043c')
(u'\u0440', u'\u0438\u0442\u0430 \u0444\u0438\u043b\u0438\u043f\u043f\u043e\u0432\u0430')
(u'F', u'rywind')]

Плиз как перевести это на русский?

doza_and

Янв. 18, 2011 20:06:51

А это и есть русский

print u'\u0430\u043f\u0443\u043d\u0446\u0435\u043b\u044c'

апунцель