Форум сайта python.su
у меня стоит такая цель: автоматизировать открытие страници(при этом не забыть JS)-> нажатия на ссылку->скачивание файла(после перехода по ссылке и возможно переадресацие на другой сервер). + все это должно работать через прокси-сервер, и запросы должны отправляться в точности те, что отправлял бы IE6 при работе вручную. Тоесть для сайта с которым я буду праводить эти операции все должно выглядить так, как будто я работаю через полнофункциональный IE6(кукисы тожу надо поддерживать (не мои)).
Я пробывал написать такую программу, пользуясь wget'ом и линксом, но как оказалась, этого не достаточно, нужна эмуляция((
хотя с линксом не оч разабрался((
С помощью чего можно все это организовать,? ну хоть с частичной эмуляцией браузера((
может есть какието браузеры, с которыми можно работать консольно, хотя бы с командами открыть-сохранить страницу,,,?
заранее спасибо))
п.с. у меня хрюша
Отредактировано (Март 16, 2008 21:23:44)
Офлайн
Офлайн
пардон, лише тепер дочитав що хрюша…. тоді не піде
Офлайн
Колись пробував робить аналогічне. Задачка рішилась за допомогою наступного алгоритму:
1. Запускаем httpAnalyser
2. Запускаем IE6 і робимо все що повинна робить програма
3. Уважно дивимось на те що зловив httpAnalyser
4. Використовуючи urllib, urllib2 а також комбінацію: ProxyHandler + HTTPRedirectHandler+ cookielib + HTTPBasicAuthHandler емулуюємо роботу IE6.
Набільші проблеми при цьому з обманутим js :(
Офлайн
Рекомендую глянуть на twill
Офлайн
дякую… зараз погляну, що таке цей твил) … а шлях выришення проблемы з нттп аналайзером мені не пидходыть, бо моя циль заключаетьсяу тому, щоб зробыты цю программу универсальну… вводыш ссылку на сторинку сайту, вводыш назву файлу и вуаля…))
Офлайн
Ти б хоч на якійсь одній мові писав, а то в тебе половина букв по-українськи, а половина - по-російськи. Читати важко, м'яко кажучи, жахливий суржик.
Офлайн
http://selenium-rc.openqa.org/python.html
Попробуй Selenium.
Офлайн
не..силенииум не подходит(( там же с прокси не поработаеш)
Офлайн
ЧОРТ Miscellaneous implementation details
twill ignores robots.txt.
http-equiv=refresh headers are handled immediately, independent of the ‘pause’ component of the ‘content’ attribute.
twill does not understand javascript.
последняя строка оч мешает(( силениум не подходит твил тоже.. о lynx и links я ввобще молчу(( возможности хттп дебагером пользоваться нет(( ну посоветуйте еще чо нибудь.. ну плз
Офлайн