Форум сайта python.su
1.Рано или поздно блочат по IP во время парсинга. Как использовать прокси в связке Beutifual Soup'a и urllib.request?
2.На некоторых сайтах есть таблицы, переключения между страницами производится как то скрытно, я хз чё за фича вот пример https://myip.ms/browse/sites/1/ipID/23.227.38.0/ipIDii/23.227.38.255/sort/6/asc/1
Попробуйте перейте на другую страницу снизу, URl не меняется - как это парсить?
Пытался тупо вдалбивать номер страницы - сбрасывала на 1.
Отредактировано Djo0513 (Авг. 18, 2017 15:04:57)
Офлайн
Открываем chrome. В нем открываем страницу. Жмем F12. Откроется панель разработчика. Выбираем закладку Network. Чекаем на значке с воронкой(Filter). Выбираем вкладку XHR. Пробуем “перейте на другую страницу снизу, URl не меняется”. Смотрим на на вкладку Network - хуйясе?! ой что это?!
ЗЫ: Следим за Request URL: https://myip.ms/ajax_table/sites/3/ipID/23.227.38.0/ipIDii/23.227.38.255/sort/6/asc/1 вот этот элемент пути менятся
Отредактировано PooH (Авг. 18, 2017 17:42:13)
Офлайн
PooH
Насчёт URL, он меняется только вручную, а при переходе там всё скрытно - поэтому я и не знал, что он меняется вообще. Чтоб не банили что делать?
Офлайн
Djo0513urllib.request.URLopener принимает параметр proxies - словарь вида {схема: url прокси}, но лучше возьми requests, это очень удобная обертка поверх urllib.request. Там тоже такой словарь передается, смотри в документации.
Чтоб не банили что делать?
Офлайн
PooH
Ещё раз спасибо.
Офлайн