Форум сайта python.su
Всем привет. Переношу с PHP на питон код, который парсил html-странички и доставал оттуда содержимое указанных свойств указанных тегов.
Вот оригинал:
preg_match_all(“#<{$tag}(?:.*){$param}Здесь в $tag может лежать “a”, а в $param - “href”. В $content - код html-странички. Выражение прекрасно работает и складывает всё что надо в $matches.?:'|\”|)(.*)(?:'|\“| |>)#iU”,$content,$matches);
Офлайн
WhiteTigerесть lxml.html
который парсил html-странички и доставал оттуда содержимое указанных свойств указанных тегов
WhiteTigerленивая (нежадная) версия - .*?
То есть он берёт на много больше текста чем нужно.
WhiteTigerпобитовое сложение - re.U | re.I
Например re.U вместе с re.I
Отредактировано py.user.next (Апрель 4, 2013 09:18:32)
Офлайн
есть lxml.htmlНе знал, оказывается уже есть готовое решение. Большое спасибо. Именно это мне было нужно!
ревнивая (нежадная) версия - .*?
побитовое сложение - re.U | re.I
Офлайн
.*
[^>]*
Отредактировано lorien (Март 29, 2013 10:30:43)
Офлайн