Уведомления

Группа в Telegram: @pythonsu

#1 Дек. 17, 2023 15:27:23

sergio21124444
Зарегистрирован: 2023-11-08
Сообщения: 7
Репутация: +  0  -
Профиль   Отправить e-mail  

КАк скрапить данные с сайта?

ZerG
Для того что бы спарсить данные сайта одного знания питона мало
я понял почему ничего неполучается через питон, он открывает гостевой режим хрома, а поуер аутомете открывает мой ауторизованный хром и получиает доступ к полным данным сайта.
мне нужна лайбрари которая будет управлять моим хромом. так как в гостевом режиме надо ауторизовыватся через смс и капчу

Офлайн

#2 Дек. 17, 2023 15:33:28

sergio21124444
Зарегистрирован: 2023-11-08
Сообщения: 7
Репутация: +  0  -
Профиль   Отправить e-mail  

КАк скрапить данные с сайта?

py.user.next
там авторизация через смс ку, нужно чтобы питон управлял с моего родного аккаунта гугл хром
есть ли лайбрари типа селениум , которая будет заходить как я с моего аккаунта?
я все элементы скраплю с помощью супа или селениума, а цены закрыты.

Офлайн

#3 Дек. 18, 2023 08:41:27

ZerG
Зарегистрирован: 2012-04-05
Сообщения: 2586
Репутация: +  60  -
Профиль   Отправить e-mail  

КАк скрапить данные с сайта?

sergio21124444
Питон ничего не открывает
Открывает написанный тобой код
Если что-то пошло не так - то ты написал неправильный алгоритм
Кто тебе мешает осуществить авторизацию на сайте?
Пример в сети миллион



Влодение рускай арфаграфией - это как владение кунг-фу: настаящие мастира не преминяют ево бес ниабхадимости

Офлайн

#4 Дек. 19, 2023 03:58:07

py.user.next
От:
Зарегистрирован: 2010-04-29
Сообщения: 9731
Репутация: +  843  -
Профиль   Отправить e-mail  

КАк скрапить данные с сайта?

sergio21124444
там авторизация через смс ку, нужно чтобы питон управлял с моего родного аккаунта гугл хром
есть ли лайбрари типа селениум , которая будет заходить как я с моего аккаунта?
я все элементы скраплю с помощью супа или селениума, а цены закрыты.
Авторизация проводится один раз только. В результате авторизации браузер получает секрет, которым после авторизации пользуется, чтобы получать страницы. Вот ты можешь получить этот секрет обычным способом, а потом передать его своему скрипту, чтобы он пользовался им.

Бывают сайты, которые чуть ли не для каждой страницы запрашивают прохождение авторизации при каждом открытии. Но чаще всего прохождение авторизации происходит один раз и после этого можно много дней ходить без авторизации по этому секрету.

Так что используй эту схему, много сайтов сможешь спарсить так. Секрет сайтов обычно передаётся через печенье (cookie). Ты заходишь на сайт - сайт предлагает войти, ты входишь - и сайт возвращает тебе в заголовке Set-Cookie секретную последовательность. Дальше ты эту секретную последовательность ставишь при каждом запросе в заколовок Cookie и всё. Сайт это видит, ищет эту секретную последовательность у себя в разрешённых и, если находит, разрешает тебе скачать страницу, которую ты запросил. Если же заголовка нет или секретная последовательность не обнаружена сайтом, сайт тебе отдаёт какую-нибудь страницу в таком случае. Либо это будет сообщение об ошибке доступа, либо это будет гостевая страница.

Также учти, что кроме Cookie сайт дополнительно может проверять всякие признаки необходимые, чтобы подтвердить, что его открывает правильный пользователь (человек) правильным образом (через браузер). Поэтому если там сайт ждёт человека, то он будет ожидать его определённых действий (прохождения каких-то страниц до этого), и если он ждёт браузер, то будет ожидать название браузера, чтобы под него выстроить вёрстку, потому что в разных браузерах один и тот же сайт может по-разному отображаться (из-за этого вёрстку под каждый браузер подравнивают немного). Обычно больших заморочек на этом я не встречал, поэтому можешь не передавать точно всё то же самое, что браузер передаёт. Но ключевые моменты бывает надо передавать. И связано это обычно с правильной работой сайта, а не с защитой от скриптовых нападений. Нужно иметь в виду, что программист сайта не будет ничего делать просто так на всякий случай, потому что это затрачивает много сил. Он будет делать только то, что необходимо для правильной работы, и то, что от него явно требуют. Так что никто не будет ничего проверять, хоть это и можно проверять вообще, ибо эта работа не оплачивается и смысла в ней никакого нет. Обычный программист антивзломом заниматься не будет, даже если может это делать, а нанимать двух программистов (одного - для написания сайта, второго - для написания защиты) тоже никто не будет, потому что там один-то стоит дохрена, а два стоят ещё больше. Поэтому мелкие компании, владеющие сайтами, слабо защищены и не будут с тебя требовать 100500 прохождений и соблюдений.


tags: scraping



Отредактировано py.user.next (Дек. 19, 2023 04:18:39)

Офлайн

#5 Янв. 2, 2024 06:08:34

restdiscussion
Зарегистрирован: 2023-02-06
Сообщения: 6
Репутация: +  -4  -
Профиль   Отправить e-mail  

КАк скрапить данные с сайта?

Ваш код работает правильно. Он считывает список строк с клавиатуры, а затем для каждой строки выполняет следующее:

Если длина строки больше 3, строка будет преобразована в нижний регистр.
Если длина строки нечетное число, первый символ строки будет заглавным.
Эта строка отображается на экране.
drift boss

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version