DjangoBB LoFi version

Полная версия: проблема с парсингом lxml'ем

Начало » Python для новичков » проблема с парсингом lxml'ем

DerKetzer

Сен. 4, 2011 12:55:56

Допустим нам нужно парсить страницу такого содержания:

<html>
    <body>
        <a href="***" class="t">бла1 <b>бла</b> <b>бла</b> <b>бла</b></a>
        <a href="***" class="t">бла2 <b>бла</b> <b>бла</b> <b>бла</b></a>
        <a href="***" class="t">бла3 <b>бла</b> <b>бла</b> <b>бла</b></a>
        <a href="***" class="t">бла4 <b>бла</b> <b>бла</b> <b>бла</b></a>
    </html>
</body>

Для этого я написал тривиальный код:

import lxml.html
import urllib

page = urllib.urlopen("1.html")
doc = lxml.html.document_fromstring(page.read())
for a in doc.cssselect('a.t'):
            print a.text

И питон нам выдаст лишь:

бла1 
бла2 
бла3 
бла4

Вопрос вот в чем… Как сделать так, чтобы он выдал весь текст в теге ‘a’? Будут ли в этом тексте отображены теги <b> </b> не важно))
Заранее спасибо за потраченное на меня время.

Александр Кошелев

Сен. 4, 2011 15:24:29

lxml.html.tostring(a, encoding='utf-8')

DerKetzer

Сен. 4, 2011 17:48:39

А ееее!! Спасибо большое!)