DjangoBB LoFi version

Полная версия: регулярка, выбрать ссылки из текста

Начало » Python для новичков » регулярка, выбрать ссылки из текста

ilnur

Июль 1, 2013 15:45:11

>>> import re
>>> str='<a href="1.ru">11111</a>, <a href="2.ru">222222</a>'
>>> re.findall(r'<a.*>.*</a>', str)
['<a href="1.ru">11111</a>, <a href="2.ru">222222</a>']
>>>

подскажите пожалуйста, почему находится две ссылки одной строкой. Мне надо найти каждую ссылку отдельно

reclosedev

Июль 1, 2013 17:14:08

.* - очень жадный (greedy)

re.findall(r'<a[^>]*>[^<]*</a>', str)

Чтобы уменьшить его жадность:

re.findall(r'<a.*?>.*?</a>', str)

Но это не всегда спасет, поэтому правильнее задать ограничения явно:

re.findall(r'<a[^>]*>[^<]*</a>', str)

А если вспомнить о вложенных тегах, то re стоит заменить на lxml или похожее.

4kpt

Июль 1, 2013 23:14:34

reclosedev
Абсолютно согласен. Если документ небольшой можно работать с xml. Для него в Бизли Д есть даже русская дока с примерами.

py.user.next

Июль 2, 2013 02:10:56

>>> import lxml.html
>>> 
>>> s = """<a href="1.ru">11111</a>, <a href="2.ru">222222</a>"""
>>> 
>>> html = lxml.html.fromstring(s)
>>> data = [(node.attrib['href'], node.text)
...         for node in html.iterchildren('a')]
>>> print(data)
[('1.ru', '11111'), ('2.ru', '222222')]
>>>

ilnur

Июль 2, 2013 06:33:46

спасибо всем.
теперь все понятно.
Больше интересовало правильное построение регулярки.