Найти - Пользователи
Полная версия: Регулярные выражения, нужна помощь
Начало » Python для экспертов » Регулярные выражения, нужна помощь
1 2
Yurietc
Я так понял важны не теги <h2>, а то, что между ними. Решение выглядит примерно так :

>>> import re
>>> parsedhtml = ‘'’<HTML>
sodifjhgskpdlnfg;sldknfhskdljgfh;dlfkgh
shugsdghufsdiughf<H2>H2</H2>sldkfjgsdlkf
;skldfjgn;sdlkfjghsldfgkjhdlkfjghdlfkjgh
drgwsergs<h2>h2</h2>sdfgsdfgsdfgsdfgsdgf
sdfg<h2>h2h2
h2
h2
h2</h2>soehrgsehrgsg
</HTML>'''
>>> reg_ogj = re.compile(r'<h\d>(.*?)</h\d>', re.DOTALL | re.IGNORECASE | re.MULTILINE)
>>> strings = reg_ogj.findall(parsedhtml)
>>> print strings

>>>
P.S. Почитать про регекспы можно здесь

http://www.intuit.ru/department/pl/python/6/4.html

http://www.regular-expressions.info/tutorialcnt.html
Yurietc
Да, с примером HTML я перегнул :)
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB