sergio21124444
там авторизация через смс ку, нужно чтобы питон управлял с моего родного аккаунта гугл хром
есть ли лайбрари типа селениум , которая будет заходить как я с моего аккаунта?
я все элементы скраплю с помощью супа или селениума, а цены закрыты.
Авторизация проводится один раз только. В результате авторизации браузер получает секрет, которым после авторизации пользуется, чтобы получать страницы. Вот ты можешь получить этот секрет обычным способом, а потом передать его своему скрипту, чтобы он пользовался им.
Бывают сайты, которые чуть ли не для каждой страницы запрашивают прохождение авторизации при каждом открытии. Но чаще всего прохождение авторизации происходит один раз и после этого можно много дней ходить без авторизации по этому секрету.
Так что используй эту схему, много сайтов сможешь спарсить так. Секрет сайтов обычно передаётся через печенье (cookie). Ты заходишь на сайт - сайт предлагает войти, ты входишь - и сайт возвращает тебе в заголовке Set-Cookie секретную последовательность. Дальше ты эту секретную последовательность ставишь при каждом запросе в заколовок Cookie и всё. Сайт это видит, ищет эту секретную последовательность у себя в разрешённых и, если находит, разрешает тебе скачать страницу, которую ты запросил. Если же заголовка нет или секретная последовательность не обнаружена сайтом, сайт тебе отдаёт какую-нибудь страницу в таком случае. Либо это будет сообщение об ошибке доступа, либо это будет гостевая страница.
Также учти, что кроме Cookie сайт дополнительно может проверять всякие признаки необходимые, чтобы подтвердить, что его открывает правильный пользователь (человек) правильным образом (через браузер). Поэтому если там сайт ждёт человека, то он будет ожидать его определённых действий (прохождения каких-то страниц до этого), и если он ждёт браузер, то будет ожидать название браузера, чтобы под него выстроить вёрстку, потому что в разных браузерах один и тот же сайт может по-разному отображаться (из-за этого вёрстку под каждый браузер подравнивают немного). Обычно больших заморочек на этом я не встречал, поэтому можешь не передавать точно всё то же самое, что браузер передаёт. Но ключевые моменты бывает надо передавать. И связано это обычно с правильной работой сайта, а не с защитой от скриптовых нападений. Нужно иметь в виду, что программист сайта не будет ничего делать просто так на всякий случай, потому что это затрачивает много сил. Он будет делать только то, что необходимо для правильной работы, и то, что от него явно требуют. Так что никто не будет ничего проверять, хоть это и можно проверять вообще, ибо эта работа не оплачивается и смысла в ней никакого нет. Обычный программист антивзломом заниматься не будет, даже если может это делать, а нанимать двух программистов (одного - для написания сайта, второго - для написания защиты) тоже никто не будет, потому что там один-то стоит дохрена, а два стоят ещё больше. Поэтому мелкие компании, владеющие сайтами, слабо защищены и не будут с тебя требовать 100500 прохождений и соблюдений.
tags: scraping
Отредактировано py.user.next (Дек. 19, 2023 04:18:39)