Python-сообщество

ilnur · Июль 1, 2013 15:45:11

>>> import re
>>> str='<a href="1.ru">11111</a>, <a href="2.ru">222222</a>'
>>> re.findall(r'<a.*>.*</a>', str)
['<a href="1.ru">11111</a>, <a href="2.ru">222222</a>']
>>>

подскажите пожалуйста, почему находится две ссылки одной строкой. Мне надо найти каждую ссылку отдельно

обо мне

reclosedev · Июль 1, 2013 17:14:08

.* - очень жадный (greedy)

re.findall(r'<a[^>]*>[^<]*</a>', str)

Чтобы уменьшить его жадность:

re.findall(r'<a.*?>.*?</a>', str)

Но это не всегда спасет, поэтому правильнее задать ограничения явно:

re.findall(r'<a[^>]*>[^<]*</a>', str)

А если вспомнить о вложенных тегах, то re стоит заменить на lxml или похожее.

4kpt · Июль 1, 2013 23:14:34

reclosedev
Абсолютно согласен. Если документ небольшой можно работать с xml. Для него в Бизли Д есть даже русская дока с примерами.

py.user.next · Июль 2, 2013 02:10:56

>>> import lxml.html
>>> 
>>> s = """<a href="1.ru">11111</a>, <a href="2.ru">222222</a>"""
>>> 
>>> html = lxml.html.fromstring(s)
>>> data = [(node.attrib['href'], node.text)
...         for node in html.iterchildren('a')]
>>> print(data)
[('1.ru', '11111'), ('2.ru', '222222')]
>>>

Отредактировано py.user.next (Июль 2, 2013 02:32:44)

ilnur · Июль 2, 2013 06:33:46

спасибо всем.
теперь все понятно.
Больше интересовало правильное построение регулярки.

обо мне

Python-сообщество

Уведомления

#1 Июль 1, 2013 15:45:11

регулярка, выбрать ссылки из текста

#2 Июль 1, 2013 17:14:08

регулярка, выбрать ссылки из текста

#3 Июль 1, 2013 23:14:34

регулярка, выбрать ссылки из текста

#4 Июль 2, 2013 02:10:56

регулярка, выбрать ссылки из текста

#5 Июль 2, 2013 06:33:46

регулярка, выбрать ссылки из текста

Board footer