Уведомления

Группа в Telegram: @pythonsu
  • Начало
  • » Web
  • » парсинг HTML через etree и вложенные теги [RSS Feed]

#1 Янв. 23, 2012 16:38:17

gsvster
От:
Зарегистрирован: 2011-04-25
Сообщения: 2
Репутация: +  0  -
Профиль   Отправить e-mail  

парсинг HTML через etree и вложенные теги

Надо пропарсить блог. Тема, дата читаеться без проблем, а тело в <p> абзацах + форматирование и прочии тэги.

parser = etree.HTMLParser()
doc = etree.parse(StringIO(html), parser)
body_xpath = "//div/p/text()“
body = doc.xpath(body_xpath)
for p in body:
print p.encode(”utf-8")

Как прочитать все вложенные теги в пути body_xpath ?



Офлайн

  • Начало
  • » Web
  • » парсинг HTML через etree и вложенные теги[RSS Feed]

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version