Форум сайта python.su
0
Дошли у меня на днях руки до конструктора рекламных компаний Яндекс.Директ. Решено было получать ключевые фразы с сервиса Яндекс.Вордстат. Принялся я с энтузиазмом писать новый парсер и тут же вляпался в очень малоприятный факт. Опуская то, что нужно имитировать человеческое поведение(паузы при обращении у страницам) и работу через прокси, самым главной неприятностью стало то, что страница оснащена хоть и тривиальной, но действенной защитой от парсинга. При обращении к странице, первым загружается код заставки с надписью загрузка, а потом, через некоторое время код достраивается основным содержимым страницы. Таким образом, если просто вызвать метод urlopen().read() , будет получен код страницы с заставкой без кода основной страницы. Я пытался делать разного рода задержки, но ничего не вышло. Хоть я и решил уже проблему получения ключей другим образом, отказаться от идеи парсинга яндекса не могу, религия не позволяет, все сайты до этого по кусочкам разбирал, а тут вот такая вот клякса. Какие есть предложения?
Ссылочка на саму проблему http://wordstat.yandex.ru/#!/?words=%D0%BF%D0%B0%D1%80%D1%81%D0%B8%D0%BD%D0%B3
Отредактировано Serbis (Март 27, 2014 09:46:06)
Офлайн
20
Офлайн
31
Офлайн