Python-сообщество

hubble · Сен. 5, 2015 20:16:40

Есть код:

from lxml import html
def get_urls_from_page(url):
    result = []
    path = './/*[@class = "span10"]/div[1]/text()'
    for page in range(10):
        doc = html.parse(url + 'page')
        values = doc.xpath(path)
        for i in values:
            result.append(i)
    return result
headers = get_urls_from_page('http://msl.ua/ru/megalot/archive/page/')
for h in headers:
    print(h)

Парсится в цикле только первая страница. Подскажите, пожалуйста, что не правильно?

lobster · Сен. 5, 2015 21:01:22

 doc = html.parse(url + 'page')

page видимо это переменная, попробуй убрать кавычки.

doc = html.parse(url + str(page))

mgnmaster · Сен. 5, 2015 21:02:49

from lxml import html
def get_urls_from_page(url):
    result = []
    path = './/*[@class = "span10"]/div[1]/text()'
    for page in range(10):
        doc = html.parse(url + str(page))
        values = doc.xpath(path)
        for i in values:
            result.append(i)
    return result
headers = get_urls_from_page('http://msl.ua/ru/megalot/archive/page/')
for h in headers:
    print(h)

lobster конечно переменная )

Отредактировано mgnmaster (Сен. 5, 2015 21:04:12)

hubble · Сен. 5, 2015 21:56:06

Спасибо.

Python-сообщество

Уведомления

#1 Сен. 5, 2015 20:16:40

Многостраничный парсинг

#2 Сен. 5, 2015 21:01:22

Многостраничный парсинг

#3 Сен. 5, 2015 21:02:49

Многостраничный парсинг

#4 Сен. 5, 2015 21:56:06

Многостраничный парсинг

Board footer