Всмысле, вместе с содержащимися тегами.
В голову приходит только рекурсивный обход дерева с построением тегов заново…
Я ведь правильно понимаю, что html5lib в данном случае возвращает человеческое lxml-дерево?
def read_page(url):
headers = {"User-Agent" : " Mozilla/5.0 (X11; Linux x86_64; rv:2.0.1) Gecko/20100101 Firefox/4.0.1"}
req = urllib2.Request(url, None, headers)
builder = html5lib.getTreeBuilder('lxml')
parser = html5lib.HTMLParser(builder, namespaceHTMLElements = False)
content = urllib2.urlopen(req).read()
return parser.parse(content)