Уведомления

Группа в Telegram: @pythonsu

#1 Июль 27, 2016 07:50:49

BA
Зарегистрирован: 2016-07-27
Сообщения: 1
Репутация: +  0  -
Профиль   Отправить e-mail  

Парсинг сайта с авторизацией

Всем привет!
Ребят подскажите пжт, как спарсить информацию сайта, если на этом сайте нужна регистрация. Я зарегистрировался, но не получается парсить “супом”. Может кто дельный совет даст, а еще лучше подскажет, к сведению информация парсится исключительно в исследовательских целях!! Плиз, подскажите как лучше сделать!
К примеру вот фрагмент кода:
from bs4 import BeautifulSoup
import requests

URL_BASE = 'http/…..'
URL_SEARCH_MANUFACTURER = 'http/…..'

with requests.Session() as c:
URL_AUTHORIZATION = 'http/…../Account/Login'
USERNAME = ‘….@mail.com
PASSWORD = ‘123456789’
r = requests.get(URL_AUTHORIZATION)
login_data = dict(username = USERNAME, password = PASSWORD)
page = c.get(URL_BASE)#.content
print(page.content)

Офлайн

#2 Июль 28, 2016 16:44:56

papuas
Зарегистрирован: 2015-06-19
Сообщения: 159
Репутация: +  6  -
Профиль   Отправить e-mail  

Парсинг сайта с авторизацией

Причем тут суп если в приведенном примере вы используете библиотеку requests.
Авторизация на вкус и цвет - разная, везде свои модели поведения. (начиная от получения временных id, куков, сертификатов и т.д.)
По-моему для того, чтобы отослать данные web серверу нужно использовать метод post и указать в какую форму отправить данные для авторизации и уже следущий запрос get.
И да… обертывайте пж код в тэг.

Отредактировано papuas (Июль 28, 2016 16:58:11)

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version