Форум сайта python.su
0
Нет, это я понимаю, спасибо. (:
Я так уже дописал этот парсер, поглядывая на код, написанный, GaiveR (то была малая часть), и понемногу добавляя свой код.
Как говорят радиотехники, “не крути две ручки сразу”. (:
Мне просто хотелось бы понять, почему xpath, корректный с точки зрения FireBug'а некорректен с точки зрения lxml - html - документ-то один, нет?..
Офлайн
0
lorienЕсли не сложно, подскажите хороший мануал по xpath
прочитать мануал по xpath, выучить xpat
Офлайн
0
Мануал по xpath
http://zvon.org/xxl/XPathTutorial/General_rus/examples.html
Офлайн
16
shau-kote“…FireBug в таблицы всегда добавляет тег tbody независимо от того есть он в разметке или нет.”(http://habrahabr.ru/post/114788/#comment_3708647)
Мне просто хотелось бы понять, почему xpath, корректный с точки зрения FireBug'а некорректен с точки зрения lxml - html - документ-то один, нет?..
import requests import lxml.html resp = requests.get('http://ru.wikipedia.org/wiki/Категория:Животные_по_алфавиту') doc = lxml.html.document_fromstring(resp.text) for topic in doc.xpath('/html/body/div[3]/div[3]/div[4]/div[2]/div/div/table/tr/td/ul/li/a'): print(topic.get('href'))
Офлайн
32
если нужно только линки выкусить, то можно регепсы заюзать.
Офлайн
0
GaiveR, спасибо, я наконец-то разобрался.
Офлайн
> Если не сложно, подскажите хороший мануал по xpath
http://www.w3schools.com/xpath/
Офлайн