DjangoBB LoFi version

Полная версия: парсинг HTML через etree и вложенные теги

Начало » Web » парсинг HTML через etree и вложенные теги

gsvster

Янв. 23, 2012 16:38:17

Надо пропарсить блог. Тема, дата читаеться без проблем, а тело в <p> абзацах + форматирование и прочии тэги.

parser = etree.HTMLParser()
doc = etree.parse(StringIO(html), parser)
body_xpath = "//div/p/text()“
body = doc.xpath(body_xpath)
for p in body:
print p.encode(”utf-8")

Как прочитать все вложенные теги в пути body_xpath ?