Найти - Пользователи
Полная версия: Ckaчать сайт
Начало » Python для новичков » Ckaчать сайт
1
newpy
https://www.iplocation.net узнать свой IP

получаю вот такой огрызок

 <html style="height:100%"><head><meta content="NOINDEX, NOFOLLOW" name="ROBOTS"/><meta content="telephone=no" name="format-detection"/><meta content="initial-scale=1.0" name="viewport"/><meta content="IE=edge,chrome=1" http-equiv="X-UA-Compatible"/></head><body style="margin:0px;height:100%"><iframe frameborder="0" height="100%" id="main-iframe" marginheight="0px" marginwidth="0px" src="/_Incapsula_Resource?SWUDNSAI=30&amp;xinfo=14-6243538-0%200NNN%20RT%281607450331128%2072%29%20q%280%20-1%20-1%20-1%29%20r%280%20-1%29%20B12%288%2c881023%2c0%29%20U18&amp;incident_id=768000230009550509-25064510066787790&amp;edet=12&amp;cinfo=08000000&amp;rpinfo=0&amp;cts=BgDAyvixOHQzkR5ByZtUR2ayoUcdgAZhsKthkvwnMLpsRd1jqXO79jqsBuvG3hGc" width="100%">Request unsuccessful. Incapsula incident ID: 768000230009550509-25064510066787790</iframe></body></html>


<html style=“height:100%”><head><meta content=“NOINDEX, NOFOLLOW” name=“ROBOTS”/><meta content=“telephone=no” name=“format-detection”/><meta content=“initial-scale=1.0” name=“viewport”/><meta content=“IE=edge,chrome=1” http-equiv=“X-UA-Compatible”/></head><body style=“margin:0px;height:100%”><iframe frameborder=“0” height=“100%” id=“main-iframe” marginheight=“0px” marginwidth=“0px” src=“/_Incapsula_Resource?SWUDNSAI=30&amp;xinfo=14-6243538-0%200NNN%20RT%281607450331128%2072%29%20q%280%20-1%20-1%20-1%29%20r%280%20-1%29%20B12%288%2c881023%2c0%29%20U18&amp;incident_id=768000230009550509-25064510066787790&amp;edet=12&amp;cinfo=08000000&amp;rpinfo=0&amp;cts=BgDAyvixOHQzkR5ByZtUR2ayoUcdgAZhsKthkvwnMLpsRd1jqXO79jqsBuvG3hGc” width=“100%”>Request unsuccessful. Incapsula incident ID: 768000230009550509-25064510066787790</iframe></body></html>
FishHook
В чем вопрос?
newpy
почему получаю огрызок?
браузер скачивает этот сайт
а программа скачивает непонятно что
может у сайта есть защита
может я неправильно делаю
 import urllib.parse
from bs4        import BeautifulSoup, Comment
cayt = urllib.request.urlopen("https://www.iplocation.net/").read()
soup = BeautifulSoup(cayt , "html5lib")
py.user.next
newpy
почему получаю огрызок?
браузер скачивает этот сайт
а программа скачивает непонятно что
может у сайта есть защита
У меня и браузер обычный стал получать это сообщение, когда я несколько запросов сделал определённых. Сайт защищён системой Incapsula (wiki. Inkapsula).

Можно ли обойти? Скорее всего, можно. Но нужно сначала выяснить, как браузер проходит эти проверки автоматически.
newpy
da, оказывается, так
если у броусеров есть своя защита, то - Additional security check is required… принуждает горы, машины, пожарные краны искать
а если всё отключить (то есть разрешить сайту всё) - то пропускает спокойно

а как в питоне наврать, что я человек.. наверное, как-то люди вышли из положения, програм же много или все работают через апи?
xam1816
newpy
а как в питоне наврать, что я человек..
в заголовках в запросе можно вставить Cookie,без них огрызок выдает
py.user.next
newpy
если у броусеров есть своя защита, то - Additional security check is required… принуждает горы, машины, пожарные краны искать
а если всё отключить (то есть разрешить сайту всё) - то пропускает спокойно
Не, если даже всё разрешить, то при подозрительных запросах оно точно так же выдаст капчу (wiki. капча) в скором времени.

newpy
а как в питоне наврать, что я человек
Тебе надо изобразить браузер скриптом на питоне. Делается это через передаваемые заголовки в HTTP-запросе, как правило, но может вовлекаться и JavaScript движок браузера в этот процесс.

По идее, тебе нужно лишь Incapsula'у обмануть, а у неё там, похоже, нейронная сеть, которая анализирует всё, что ты подаёшь ей, включая твой ip-адрес. Просто подать действующее печенье и поле агента там не прокатывает. Потом на все валидные запросы, которые работали до подозрительных запросов прекрасно, она начинает выдавать капчу, каким-то образом установив, что это ты подозрительные запросы посылал до этого (это по ip обычно сопоставляется).
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB