Форум сайта python.su
Допустим нам нужно парсить страницу такого содержания:
<html>
<body>
<a href="***" class="t">бла1 <b>бла</b> <b>бла</b> <b>бла</b></a>
<a href="***" class="t">бла2 <b>бла</b> <b>бла</b> <b>бла</b></a>
<a href="***" class="t">бла3 <b>бла</b> <b>бла</b> <b>бла</b></a>
<a href="***" class="t">бла4 <b>бла</b> <b>бла</b> <b>бла</b></a>
</html>
</body>
import lxml.html
import urllib
page = urllib.urlopen("1.html")
doc = lxml.html.document_fromstring(page.read())
for a in doc.cssselect('a.t'):
print a.text
бла1
бла2
бла3
бла4
Офлайн
lxml.html.tostring(a, encoding='utf-8')
Офлайн
А ееее!! Спасибо большое!)
Офлайн