Понадобилось мне вытащить из Википедии, а конкретно из этой её страницы ссылки на все статьи, которые там собраны (как содержимое категории).
Погуглив, я решил использовать для этого LXML, а в качестве опоры взял данную статью на Хабре. Вытащив XPath FireBug'ом, я написал следующий код:
import urllib import lxml.html page = urllib.urlopen(<ссылка на страницу>) doc = lxml.html.document_fromstring(page.read()) for topic in doc.xpath('/html/body/div[3]/div[3]/div[4]/div[2]/div/div/table/tbody/tr/td/ul/li'): a = topic.xpath('/a') print a.get('href')
Увы, эффект от его выполнения был вполне так нулевой.
Буду признателен, если более опытные форумчане подскажут мне мои ошибки.
З.Ы. Учитывая, что проблема косвенно связана с выполнением практикума в университете, возможно, модераторы сочтут более подходящим перенести тему в “Центр помощи”.