Уведомления

Группа в Telegram: @pythonsu

#1 Фев. 20, 2013 11:29:55

shau-kote
Зарегистрирован: 2013-02-17
Сообщения: 17
Репутация: +  0  -
Профиль   Отправить e-mail  

Парсинг Википедии с помощью LXML

Нет, это я понимаю, спасибо. (:
Я так уже дописал этот парсер, поглядывая на код, написанный, GaiveR (то была малая часть), и понемногу добавляя свой код.
Как говорят радиотехники, “не крути две ручки сразу”. (:

Мне просто хотелось бы понять, почему xpath, корректный с точки зрения FireBug'а некорректен с точки зрения lxml - html - документ-то один, нет?..

Офлайн

#2 Фев. 20, 2013 18:22:14

myarik
Зарегистрирован: 2012-11-20
Сообщения: 31
Репутация: +  0  -
Профиль   Отправить e-mail  

Парсинг Википедии с помощью LXML

lorien
прочитать мануал по xpath, выучить xpat
Если не сложно, подскажите хороший мануал по xpath

Офлайн

#3 Фев. 20, 2013 21:23:01

Hello_world
Зарегистрирован: 2012-10-04
Сообщения: 37
Репутация: +  0  -
Профиль   Отправить e-mail  

Парсинг Википедии с помощью LXML

Офлайн

#4 Фев. 20, 2013 23:16:17

GaiveR
От:
Зарегистрирован: 2011-08-13
Сообщения: 122
Репутация: +  16  -
Профиль   Отправить e-mail  

Парсинг Википедии с помощью LXML

shau-kote
Мне просто хотелось бы понять, почему xpath, корректный с точки зрения FireBug'а некорректен с точки зрения lxml - html - документ-то один, нет?..
“…FireBug в таблицы всегда добавляет тег tbody независимо от того есть он в разметке или нет.”(http://habrahabr.ru/post/114788/#comment_3708647)

s0rg уже предлагал вам убрать tbody из xpath. Проверил, так всё работает:
import requests
import lxml.html
resp = requests.get('http://ru.wikipedia.org/wiki/Категория:Животные_по_алфавиту')
doc = lxml.html.document_fromstring(resp.text)
for topic in doc.xpath('/html/body/div[3]/div[3]/div[4]/div[2]/div/div/table/tr/td/ul/li/a'):
	print(topic.get('href'))



Офлайн

#5 Фев. 21, 2013 00:03:51

o7412369815963
От:
Зарегистрирован: 2009-06-17
Сообщения: 1986
Репутация: +  32  -
Профиль   Отправить e-mail  

Парсинг Википедии с помощью LXML

если нужно только линки выкусить, то можно регепсы заюзать.

Офлайн

#6 Фев. 23, 2013 09:46:58

shau-kote
Зарегистрирован: 2013-02-17
Сообщения: 17
Репутация: +  0  -
Профиль   Отправить e-mail  

Парсинг Википедии с помощью LXML

GaiveR, спасибо, я наконец-то разобрался.

Офлайн

#7 Март 20, 2013 12:16:58

lorien
От:
Зарегистрирован: 2006-08-20
Сообщения: 755
Репутация: +  37  -
Профиль  

Парсинг Википедии с помощью LXML

> Если не сложно, подскажите хороший мануал по xpath

http://www.w3schools.com/xpath/

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version