Найти - Пользователи
Полная версия: Многостраничный парсинг
Начало » Python для новичков » Многостраничный парсинг
1
hubble
Есть код:
from lxml import html
def get_urls_from_page(url):
    result = []
    path = './/*[@class = "span10"]/div[1]/text()'
    for page in range(10):
        doc = html.parse(url + 'page')
        values = doc.xpath(path)
        for i in values:
            result.append(i)
    return result
headers = get_urls_from_page('http://msl.ua/ru/megalot/archive/page/')
for h in headers:
    print(h)
Парсится в цикле только первая страница. Подскажите, пожалуйста, что не правильно?
lobster
 doc = html.parse(url + 'page')
page видимо это переменная, попробуй убрать кавычки.
doc = html.parse(url + str(page))
mgnmaster
from lxml import html
def get_urls_from_page(url):
    result = []
    path = './/*[@class = "span10"]/div[1]/text()'
    for page in range(10):
        doc = html.parse(url + str(page))
        values = doc.xpath(path)
        for i in values:
            result.append(i)
    return result
headers = get_urls_from_page('http://msl.ua/ru/megalot/archive/page/')
for h in headers:
    print(h)

lobster конечно переменная )
hubble
Спасибо.
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB