Пытаюсь разобраться с регулярными выражениями.
Пишу код:
# -*- coding: utf-8 -*-
import re
pattern = ur'href="(.*?)">(.*?)</a>'
number_re = re.compile(pattern)
hhh = u'<a href="www.ya.ru">яндекс</a>'
s = number_re.findall(hhh)
print unicode(s)
[(u'www.ya.ru', u'\u044f\u043d\u0434\u0435\u043a\u0441')]
И второй вопрос: Как сделать более универсальную регулярку чтобыможно было задавать любые урлы например как этот:
<a href="www.ya.ru onClick=win(400,350) target=window">яндекс</a>