DjangoBB LoFi version

Начало » Python для новичков » Многостраничный парсинг

hubble

Сен. 5, 2015 20:16:40

Есть код:

from lxml import html
def get_urls_from_page(url):
    result = []
    path = './/*[@class = "span10"]/div[1]/text()'
    for page in range(10):
        doc = html.parse(url + 'page')
        values = doc.xpath(path)
        for i in values:
            result.append(i)
    return result
headers = get_urls_from_page('http://msl.ua/ru/megalot/archive/page/')
for h in headers:
    print(h)

Парсится в цикле только первая страница. Подскажите, пожалуйста, что не правильно?

lobster

Сен. 5, 2015 21:01:22

 doc = html.parse(url + 'page')

page видимо это переменная, попробуй убрать кавычки.

doc = html.parse(url + str(page))

mgnmaster

Сен. 5, 2015 21:02:49

from lxml import html
def get_urls_from_page(url):
    result = []
    path = './/*[@class = "span10"]/div[1]/text()'
    for page in range(10):
        doc = html.parse(url + str(page))
        values = doc.xpath(path)
        for i in values:
            result.append(i)
    return result
headers = get_urls_from_page('http://msl.ua/ru/megalot/archive/page/')
for h in headers:
    print(h)

lobster конечно переменная )

hubble

Сен. 5, 2015 21:56:06

Спасибо.