Уведомления

Группа в Telegram: @pythonsu

#1 Фев. 3, 2017 21:19:01

GodBoy611
Зарегистрирован: 2017-02-03
Сообщения: 1
Репутация: +  0  -
Профиль   Отправить e-mail  

Парсер

import requests
from bs4 import BeautifulSoup
#План:
#1. Выяснить количество стрн
#2. сфр список уолов на стр выдачи
#3 собрать данныфе


def get_html(url):
r = requests.get(url)
return r.text



def get_total_pages(html):
soup = BeautifulSoup(html, ‘lxml’)

pages = soup.find('div', class_='pager rel clr').find_all('a', class_='block br3 brc8 large tdnone lheight24').get('href')
total_pages = pages.split('=').split(“&”)

return int(total_pages)



def main():
url = 'https://www.olx.ua/uk/kiev/'
base_url = 'https://www.olx.ua/uk/kiev/'
page_part = ‘page=’
query_part = ‘'

total_pages = get_total_pages(get_html(url))

for i in range(1, total_pages):
url_gen = base_url + page_part + str(i) + query_part
print(url_gen)


if __name__ == ’__main__':
main()


Ошибка:
File “/home/khalil/Документы/avito.py”, line 27
base_url = 'https://www.olx.ua/uk/kiev/'
^
IndentationError: unindent does not match any outer indentation level
>>>

Офлайн

#2 Фев. 4, 2017 04:50:22

scidam
Зарегистрирован: 2016-06-15
Сообщения: 288
Репутация: +  35  -
Профиль   Отправить e-mail  

Парсер

Гораздо проще все читать, если оформить в тэг code python.

У вас неверный отступ, должно быть как-то так:

  def main():
    url = 'https://www.olx.ua/uk/kiev/'
    base_url = 'https://www.olx.ua/uk/kiev/'
    page_part = page=
    query_part = ' # etc.... 

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version