Уведомления

Группа в Telegram: @pythonsu

#1 Сен. 4, 2011 12:55:56

DerKetzer
От:
Зарегистрирован: 2011-09-04
Сообщения: 2
Репутация: +  0  -
Профиль   Отправить e-mail  

проблема с парсингом lxml'ем

Допустим нам нужно парсить страницу такого содержания:

<html>
<body>
<a href="***" class="t">бла1 <b>бла</b> <b>бла</b> <b>бла</b></a>
<a href="***" class="t">бла2 <b>бла</b> <b>бла</b> <b>бла</b></a>
<a href="***" class="t">бла3 <b>бла</b> <b>бла</b> <b>бла</b></a>
<a href="***" class="t">бла4 <b>бла</b> <b>бла</b> <b>бла</b></a>
</html>
</body>
Для этого я написал тривиальный код:

import lxml.html
import urllib

page = urllib.urlopen("1.html")
doc = lxml.html.document_fromstring(page.read())
for a in doc.cssselect('a.t'):
print a.text
И питон нам выдаст лишь:
бла1 
бла2
бла3
бла4
Вопрос вот в чем… Как сделать так, чтобы он выдал весь текст в теге ‘a’? Будут ли в этом тексте отображены теги <b> </b> не важно))
Заранее спасибо за потраченное на меня время.



Офлайн

#2 Сен. 4, 2011 15:24:29

Александр Кошелев
От: Москва
Зарегистрирован: 2007-02-03
Сообщения: 1724
Репутация: +  2  -
Профиль   Отправить e-mail  

проблема с парсингом lxml'ем

lxml.html.tostring(a, encoding='utf-8')



Офлайн

#3 Сен. 4, 2011 17:48:39

DerKetzer
От:
Зарегистрирован: 2011-09-04
Сообщения: 2
Репутация: +  0  -
Профиль   Отправить e-mail  

проблема с парсингом lxml'ем

А ееее!! Спасибо большое!)



Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version