Python-сообщество

Serbis · Март 27, 2014 09:44:59

Дошли у меня на днях руки до конструктора рекламных компаний Яндекс.Директ. Решено было получать ключевые фразы с сервиса Яндекс.Вордстат. Принялся я с энтузиазмом писать новый парсер и тут же вляпался в очень малоприятный факт. Опуская то, что нужно имитировать человеческое поведение(паузы при обращении у страницам) и работу через прокси, самым главной неприятностью стало то, что страница оснащена хоть и тривиальной, но действенной защитой от парсинга. При обращении к странице, первым загружается код заставки с надписью загрузка, а потом, через некоторое время код достраивается основным содержимым страницы. Таким образом, если просто вызвать метод urlopen().read() , будет получен код страницы с заставкой без кода основной страницы. Я пытался делать разного рода задержки, но ничего не вышло. Хоть я и решил уже проблему получения ключей другим образом, отказаться от идеи парсинга яндекса не могу, религия не позволяет, все сайты до этого по кусочкам разбирал, а тут вот такая вот клякса. Какие есть предложения?

Ссылочка на саму проблему http://wordstat.yandex.ru/#!/?words=%D0%BF%D0%B0%D1%80%D1%81%D0%B8%D0%BD%D0%B3

Отредактировано Serbis (Март 27, 2014 09:46:06)

noob_saibot · Март 27, 2014 11:22:10

Похожая тема

sanodin · Март 27, 2014 21:53:23

http://python.su/forum/topic/22359/?page=3

Python-сообщество

Уведомления

#1 Март 27, 2014 09:44:59

Защита от парсинга Yandex.Wordstat

#2 Март 27, 2014 11:22:10

Защита от парсинга Yandex.Wordstat

#3 Март 27, 2014 21:53:23

Защита от парсинга Yandex.Wordstat

Board footer