Уведомления

Группа в Telegram: @pythonsu

#1 Март 27, 2014 09:44:59

Serbis
От:
Зарегистрирован: 2012-02-13
Сообщения: 38
Репутация: +  0  -
Профиль   Отправить e-mail  

Защита от парсинга Yandex.Wordstat

Дошли у меня на днях руки до конструктора рекламных компаний Яндекс.Директ. Решено было получать ключевые фразы с сервиса Яндекс.Вордстат. Принялся я с энтузиазмом писать новый парсер и тут же вляпался в очень малоприятный факт. Опуская то, что нужно имитировать человеческое поведение(паузы при обращении у страницам) и работу через прокси, самым главной неприятностью стало то, что страница оснащена хоть и тривиальной, но действенной защитой от парсинга. При обращении к странице, первым загружается код заставки с надписью загрузка, а потом, через некоторое время код достраивается основным содержимым страницы. Таким образом, если просто вызвать метод urlopen().read() , будет получен код страницы с заставкой без кода основной страницы. Я пытался делать разного рода задержки, но ничего не вышло. Хоть я и решил уже проблему получения ключей другим образом, отказаться от идеи парсинга яндекса не могу, религия не позволяет, все сайты до этого по кусочкам разбирал, а тут вот такая вот клякса. Какие есть предложения?

Ссылочка на саму проблему http://wordstat.yandex.ru/#!/?words=%D0%BF%D0%B0%D1%80%D1%81%D0%B8%D0%BD%D0%B3



Отредактировано Serbis (Март 27, 2014 09:46:06)

Офлайн

#2 Март 27, 2014 11:22:10

noob_saibot
Зарегистрирован: 2013-09-11
Сообщения: 495
Репутация: +  20  -
Профиль   Отправить e-mail  

Защита от парсинга Yandex.Wordstat

Офлайн

#3 Март 27, 2014 21:53:23

sanodin
От:
Зарегистрирован: 2011-06-16
Сообщения: 515
Репутация: +  31  -
Профиль   Отправить e-mail  

Защита от парсинга Yandex.Wordstat

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version