DjangoBB LoFi version

Начало » Python для новичков » вопрос по xpath и lxml

asphix

Май 22, 2012 16:58:17

Пытаюсь вытащить список наименований товара:
XPath скопирован из FireBug мозиллы

from urllib.request import urlopen
import lxml.html
url = 'http://www.pleer.ru/cifrovye-fotoapparaty~157.html'
page = urlopen(url).read()
doc = lxml.html.document_fromstring(page)
for article in doc.xpath('/html/body/div[2]/table/tbody/tr[2]/td[4]/table/tbody/tr/td[2]/div[2]/div/div/div/div/div/div[3]/table/tbody/tr/td/div[2]/p'):
    print(article)

ничего не выводит и не ругается.. подскажите, что не так делаю?

з.ы.: проверка в хроме по $x(“xpath”) результаты выводит верно

reclosedev

Май 22, 2012 17:13:33

Не знаю, что в вашем XPath не так, возможно tbody не нужен или еще что-то. Но вообще, путями которые выдал Firebug пользоваться нехорошо. Лучше самому анализировать структуру страницы на предмет id'ов и классов и писать XPath относительно их.

Если я правильно понял и вам нужен номер товара (точнее все номера):

'//div[@class="description"]/p[1]'

описания:

'//div[@class="description"]/p[3]'

и т.д.

Upd
Кстати, если особых требований к загрузке страниц нет, то в простых случаях можно lxml.html.parse(url) использовать.

asilyator

Май 22, 2012 18:29:09

reclosedev, не всегда есть, к чему привязаться, и не всегда оно стоит результата. При смене разметки все равно все с большой вероятности полетит к черту.

reclosedev

Май 22, 2012 18:42:52

asilyator
не всегда есть, к чему привязаться, и не всегда оно стоит результата.

Да, бывает: таблица в таблице в таблице… без единого класса, id'a или стиля и текст внутри <br>'ами поделен

asilyator
При смене разметки все равно все с большой вероятности полетит к черту.

Привязка к id'ам и к классам (в меньшей степени) немного снижает эту вероятность.

asilyator

Май 22, 2012 18:54:00

Абсолютно не факт, а вот потрахаться с ним придется больше (а там только скопипастить). За исключением, когда к обьекту явно идет обращение через js (например, json блок со своим уникальным ид).

asphix

Май 22, 2012 21:31:14

в том и беда, что айдишников там нет

asphix

Май 23, 2012 14:56:24

разобрался с XPath, но остался один вопросик:

есть выражение:

//tr[starts-with(@id, 'pr2cart_') and @class='product_row']/td/div[2][@class='description']/p[2]/span

Возвращает:

<span title="3 единицы товара" style="color:red;font-weight:bold;">...</span>

Можно ли каким-нибудь образом вытащить текст из тега title ? Т.е. в идеале хочется получить на выходе текст: “3 единицы товара”

asphix

Май 23, 2012 16:18:25

отвечая на свой же вопрос:

string(//tr[starts-with(@id, 'pr2cart_') and @class='product_row']/td/div[2][@class='description']/p[2]/span/@title)

reclosedev

Май 23, 2012 17:12:26

Еще есть вариант воспользоваться методом элементов get(name, default=None) для получения любого атрибута:

el = doc.xpath('//div[@class="description"]/p[2]/span')
print el.get('title')

Но в данном случае ‘…/@title’ удобнее.

asphix

Май 23, 2012 19:25:13

интересный вариант, спасибо!