Python-сообщество

DerKetzer · Сен. 4, 2011 12:55:56

Допустим нам нужно парсить страницу такого содержания:

<html>
    <body>
        <a href="***" class="t">бла1 <b>бла</b> <b>бла</b> <b>бла</b></a>
        <a href="***" class="t">бла2 <b>бла</b> <b>бла</b> <b>бла</b></a>
        <a href="***" class="t">бла3 <b>бла</b> <b>бла</b> <b>бла</b></a>
        <a href="***" class="t">бла4 <b>бла</b> <b>бла</b> <b>бла</b></a>
    </html>
</body>

Для этого я написал тривиальный код:

import lxml.html
import urllib

page = urllib.urlopen("1.html")
doc = lxml.html.document_fromstring(page.read())
for a in doc.cssselect('a.t'):
            print a.text

И питон нам выдаст лишь:

бла1 
бла2 
бла3 
бла4

Вопрос вот в чем… Как сделать так, чтобы он выдал весь текст в теге ‘a’? Будут ли в этом тексте отображены теги <b> </b> не важно))
Заранее спасибо за потраченное на меня время.

Александр Кошелев · Сен. 4, 2011 15:24:29

lxml.html.tostring(a, encoding='utf-8')

DerKetzer · Сен. 4, 2011 17:48:39

А ееее!! Спасибо большое!)

Python-сообщество

Уведомления

#1 Сен. 4, 2011 12:55:56

проблема с парсингом lxml'ем

#2 Сен. 4, 2011 15:24:29

проблема с парсингом lxml'ем

#3 Сен. 4, 2011 17:48:39

проблема с парсингом lxml'ем

Board footer