DjangoBB LoFi version

Полная версия: Защита от парсинга Yandex.Wordstat

Начало » Python для новичков » Защита от парсинга Yandex.Wordstat

Serbis

Март 27, 2014 09:44:59

Дошли у меня на днях руки до конструктора рекламных компаний Яндекс.Директ. Решено было получать ключевые фразы с сервиса Яндекс.Вордстат. Принялся я с энтузиазмом писать новый парсер и тут же вляпался в очень малоприятный факт. Опуская то, что нужно имитировать человеческое поведение(паузы при обращении у страницам) и работу через прокси, самым главной неприятностью стало то, что страница оснащена хоть и тривиальной, но действенной защитой от парсинга. При обращении к странице, первым загружается код заставки с надписью загрузка, а потом, через некоторое время код достраивается основным содержимым страницы. Таким образом, если просто вызвать метод urlopen().read() , будет получен код страницы с заставкой без кода основной страницы. Я пытался делать разного рода задержки, но ничего не вышло. Хоть я и решил уже проблему получения ключей другим образом, отказаться от идеи парсинга яндекса не могу, религия не позволяет, все сайты до этого по кусочкам разбирал, а тут вот такая вот клякса. Какие есть предложения?

Ссылочка на саму проблему http://wordstat.yandex.ru/#!/?words=%D0%BF%D0%B0%D1%80%D1%81%D0%B8%D0%BD%D0%B3

noob_saibot

Март 27, 2014 11:22:10

Похожая тема

sanodin

Март 27, 2014 21:53:23

http://python.su/forum/topic/22359/?page=3