Найти - Пользователи
Полная версия: Парсинг сайта с javascript
Начало » Python для новичков » Парсинг сайта с javascript
1 2
FishHook
ayb
Очень спорно. Мне от сайта нужны данные, а что там с логикой js мне по барабану. js не генерирует данные, а получает из внешнего источника.
А вот нету никаких данных. Есть страничка сгенеренная ПХП и куча всяких фильтров - селектов, чекбоксов, радиокнопок на которые повешены обработчики ончейндж, которые показывают или хайдят строчки таблицы.
doza_and
ayb
js не генерирует данные, а получает из внешнего источника.
Мне кажется вы тут сами себе противоречите. Да js получает данные. Не запустите js или его аналог, не получите данные. Вопрос в том что проще. Сделать самому имитатор js или разобрать то, что получается в результате его выполнения. Обычно проще разобрать результат :). У вас конечно может быть другой случай.
Xion
Давайте разберем реальный пример:
Есть сайт с бесплатным списком прокси: http://spys.ru/free-proxy-list/RU/
На нем, с помощью JS довольно просто зашифрован порт

Я нагуглил скрипт https://github.com/deapge/twi/blob/master/proxy/fetch_proxy_ip/spys.ru.py
Как видно из тела скрипта он для каждого порта на странице пробегает по своему списку соотношения закодированной цифры порта к раскодированной

Видите ли вы еще какие нибудь способы решить эту задачу?
plusplus
Попробуй посмотреть в сторону phantomjs или кучи его клонов casperjs, nightmarejs. Но это javascript
ayb
Зачем ? Есть готовый скрипт ? В чем проблема ? Зашифровано конечно
FishHook
ayb
У нас форум высокой культуры быта!

WoMax
ayb
Зачем ? Есть готовый скрипт ? В чем проблема ? Зашифровано конечно
Наверное шифр изменился и скрипт уже устарел.

Xion
Попробуй покопаться в коде, разобрать строки типа 76, 102 в view-source:http://spys.ru/free-proxy-list/RU/ (firefox), может поймешь алгоритм.
Или Selenium заюзай, что бы не мучиться

Помог бы больше но времени сейчас нет.
Xion
Я бы хотел найти вариант чтобы разбирать ничего не пришлось, ведь в браузере я яваскрипты не разбираю - они сами разбираются
WoMax
Xion
Я бы хотел найти вариант чтобы разбирать ничего не пришлось, ведь в браузере я яваскрипты не разбираю - они сами разбираются

Тогда селениум и прочая ересь для слабаков
ayb
Xion
Я бы хотел найти вариант чтобы разбирать ничего не пришлось, ведь в браузере я яваскрипты не разбираю - они сами разбираются

Но тут на самом деле работы на 5 минут, можно просто обновить шифры в уже готовом скрипте, и не писать свой парсер.
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB