Найти - Пользователи
Полная версия: проблема с парсингом lxml'ем
Начало » Python для новичков » проблема с парсингом lxml'ем
1
DerKetzer
Допустим нам нужно парсить страницу такого содержания:

<html>
<body>
<a href="***" class="t">бла1 <b>бла</b> <b>бла</b> <b>бла</b></a>
<a href="***" class="t">бла2 <b>бла</b> <b>бла</b> <b>бла</b></a>
<a href="***" class="t">бла3 <b>бла</b> <b>бла</b> <b>бла</b></a>
<a href="***" class="t">бла4 <b>бла</b> <b>бла</b> <b>бла</b></a>
</html>
</body>
Для этого я написал тривиальный код:

import lxml.html
import urllib

page = urllib.urlopen("1.html")
doc = lxml.html.document_fromstring(page.read())
for a in doc.cssselect('a.t'):
print a.text
И питон нам выдаст лишь:
бла1 
бла2
бла3
бла4
Вопрос вот в чем… Как сделать так, чтобы он выдал весь текст в теге ‘a’? Будут ли в этом тексте отображены теги <b> </b> не важно))
Заранее спасибо за потраченное на меня время.
Александр Кошелев
lxml.html.tostring(a, encoding='utf-8')
DerKetzer
А ееее!! Спасибо большое!)
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB