Найти - Пользователи
Полная версия: Защита от парсинга Yandex.Wordstat
Начало » Python для новичков » Защита от парсинга Yandex.Wordstat
1
Serbis
Дошли у меня на днях руки до конструктора рекламных компаний Яндекс.Директ. Решено было получать ключевые фразы с сервиса Яндекс.Вордстат. Принялся я с энтузиазмом писать новый парсер и тут же вляпался в очень малоприятный факт. Опуская то, что нужно имитировать человеческое поведение(паузы при обращении у страницам) и работу через прокси, самым главной неприятностью стало то, что страница оснащена хоть и тривиальной, но действенной защитой от парсинга. При обращении к странице, первым загружается код заставки с надписью загрузка, а потом, через некоторое время код достраивается основным содержимым страницы. Таким образом, если просто вызвать метод urlopen().read() , будет получен код страницы с заставкой без кода основной страницы. Я пытался делать разного рода задержки, но ничего не вышло. Хоть я и решил уже проблему получения ключей другим образом, отказаться от идеи парсинга яндекса не могу, религия не позволяет, все сайты до этого по кусочкам разбирал, а тут вот такая вот клякса. Какие есть предложения?

Ссылочка на саму проблему http://wordstat.yandex.ru/#!/?words=%D0%BF%D0%B0%D1%80%D1%81%D0%B8%D0%BD%D0%B3
noob_saibot
Похожая тема
sanodin
http://python.su/forum/topic/22359/?page=3
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB