Ctrl →

shau-kote · Фев. 17, 2013 14:01:23

Всем доброго времени суток.

Понадобилось мне вытащить из Википедии, а конкретно из этой её страницы ссылки на все статьи, которые там собраны (как содержимое категории).

Погуглив, я решил использовать для этого LXML, а в качестве опоры взял данную статью на Хабре. Вытащив XPath FireBug'ом, я написал следующий код:

import urllib
import lxml.html
page = urllib.urlopen(<ссылка на страницу>)
doc = lxml.html.document_fromstring(page.read())
for topic in doc.xpath('/html/body/div[3]/div[3]/div[4]/div[2]/div/div/table/tbody/tr/td/ul/li'):
	a = topic.xpath('/a')
	print a.get('href')

Увы, эффект от его выполнения был вполне так нулевой.
Буду признателен, если более опытные форумчане подскажут мне мои ошибки.

З.Ы. Учитывая, что проблема косвенно связана с выполнением практикума в университете, возможно, модераторы сочтут более подходящим перенести тему в “Центр помощи”.

Отредактировано shau-kote (Фев. 17, 2013 14:03:49)

s0rg · Фев. 17, 2013 15:01:57

попробуйте убрать tbody из xpath'а

shau-kote · Фев. 17, 2013 15:03:25

Неа. Результат тот же.

GaiveR · Фев. 17, 2013 15:21:38

Браузеры генерят плохой XPath.
Я сам не много с XPath работал, так что за качество не ручаюсь, но такой вариант работает:

import requests
import lxml.html
resp = requests.get('http://ru.wikipedia.org/wiki/Категория:Животные_по_алфавиту')
doc = lxml.html.document_fromstring(resp.text)
links = doc.xpath('//*[@id="mw-pages"]//li[a]/a')
for link in links:
  print(link.get('href'))

P.S. если планируешь заниматься парсингом, присмотрись к grab

Отредактировано GaiveR (Фев. 17, 2013 15:23:59)

sanodin · Фев. 17, 2013 16:40:55

Есть оффлайн база википедии и есть там база кажется и в xml формате…так для сведения…
она весит многовато…

lorien · Фев. 17, 2013 18:03:12

Как правильно парсить с помощью xpath:
* прочитать мануал по xpath, выучить xpath
* profit!

Как парсить неправильно с помощью xpath:
* не читать мануалов по xpath
* использовать магические xpath, сгенерированные кем-то, например, браузером
* задавать вопросы на форумах типа, я не знаю xpath, почему у меня ничего не работает

shau-kote · Фев. 18, 2013 05:46:22

GaiveR, спасибо.
Не могли бы прокомментировать фразу “Браузеры генерят плохой XPath. ”?
Насколько я понимаю, XPath - это фактически путь в дереве XML-документа, т.е. он определяется структурой документа и только, разве нет?

Отредактировано shau-kote (Фев. 18, 2013 05:46:37)

GaiveR · Фев. 18, 2013 19:14:34

shau-kote
Насколько я понимаю, XPath - это фактически путь в дереве XML-документа, т.е. он определяется структурой документа и только, разве нет?

XPath -> XML Path Language -> язык запросов к элементам XML-документа. Т.е. это не просто путь, это язык запросов.

Вообще lorien правильно говорит, надо почитать доки по xpath и не знать бед. Но у меня самого руки не доходят :)

shau-kote · Фев. 18, 2013 22:25:21

Ну я прочитал статью в Википедии и несколько статей по самому lxml. Полагаю, этого достаточно для краткого ликбеза.

lorien · Фев. 19, 2013 18:21:56

> Ну я прочитал статью в Википедии и несколько статей по самому lxml. Полагаю, этого достаточно для краткого ликбеза.

Вам нужно понять, что такое решение проблемы. Есть сложная проблема, разбиваете её на мелкие под-проблеммы. Например, у вас длинный xpath, он не работает, отсеките большую часть, убедитесь что xpath находит вершину пути, далее добавляйте xpath по кусочкам, пока он не перестанет работать. Проанализируйте это место и вы найдёте решение.

Этот паттерн решения проблемы применим к практически любой проблеме. И вам предстоит им пользоваться бесчиленное количество раз, если вы решили заниматься программированием.

Python-сообщество

Уведомления

#1 Фев. 17, 2013 14:01:23

Парсинг Википедии с помощью LXML

#2 Фев. 17, 2013 15:01:57

Парсинг Википедии с помощью LXML

#3 Фев. 17, 2013 15:03:25

Парсинг Википедии с помощью LXML

#4 Фев. 17, 2013 15:21:38

Парсинг Википедии с помощью LXML

#5 Фев. 17, 2013 16:40:55

Парсинг Википедии с помощью LXML

#6 Фев. 17, 2013 18:03:12

Парсинг Википедии с помощью LXML

#7 Фев. 18, 2013 05:46:22

Парсинг Википедии с помощью LXML

#8 Фев. 18, 2013 19:14:34

Парсинг Википедии с помощью LXML

#9 Фев. 18, 2013 22:25:21

Парсинг Википедии с помощью LXML

#10 Фев. 19, 2013 18:21:56

Парсинг Википедии с помощью LXML

Board footer