Форум сайта python.su
Я так понял важны не теги <h2>, а то, что между ними. Решение выглядит примерно так :
>>> import re
>>> parsedhtml = ‘'’<HTML>
sodifjhgskpdlnfg;sldknfhskdljgfh;dlfkgh
shugsdghufsdiughf<H2>H2</H2>sldkfjgsdlkf
;skldfjgn;sdlkfjghsldfgkjhdlkfjghdlfkjgh
drgwsergs<h2>h2</h2>sdfgsdfgsdfgsdfgsdgf
sdfg<h2>h2h2
h2
h2
h2</h2>soehrgsehrgsg
</HTML>'''
>>> reg_ogj = re.compile(r'<h\d>(.*?)</h\d>', re.DOTALL | re.IGNORECASE | re.MULTILINE)
>>> strings = reg_ogj.findall(parsedhtml)
>>> print strings
>>>
P.S. Почитать про регекспы можно здесь
http://www.intuit.ru/department/pl/python/6/4.html
http://www.regular-expressions.info/tutorialcnt.html
Офлайн
Да, с примером HTML я перегнул :)
Офлайн