один из вариантов кода:
page = urllib.urlopen("http://www.google.ru/").read() lt = lxml.html.fromstring(page) text = lt.xpath("html/body//p[*]") print len(text)
проверяю через firebug - все парсится отлично!
что делать ,уже ума не приложу(
page = urllib.urlopen("http://www.google.ru/").read() lt = lxml.html.fromstring(page) text = lt.xpath("html/body//p[*]") print len(text)
<Element p at 0xb6bece0c>
>>> root4.xpath("/html/body//p[*]")
[<Element p at 0x157e840>]kristusКури маны по ElementTree / lxml. lxml превращает документ в дерево.
выдает обьект в непонятном виде:
odnochlenЯ, видимо, нехорошо сформулировал. Дерево документа, построенное броузером и построенное lxml могут отличаться, поэтому не стоит полагаться на пути из firebug
Да, но разве firebug дает xpath для исходного кода страницы?