Уведомления

Группа в Telegram: @pythonsu

#1 Авг. 3, 2017 23:31:22

hoolz
Зарегистрирован: 2016-09-10
Сообщения: 4
Репутация: +  0  -
Профиль   Отправить e-mail  

Как такое парсить - вопросов

Доброго времени суток, форумчане. Вроде как разобрался с HTML парсерами, разобрался в регулярках и т.д. Но теперь встала новая задача - спарсить изображения из отзывов Алиэкспреса. Но проблема в том, что они не указаны в самом HTML, а передаются каким-то способом.

Пример, изображения из отзывов товара: http://u.to/6_cQEA (если нельзя, удалите ссылку)

Буду очень признателен, если кто-то даст наводку!

Офлайн

#2 Авг. 4, 2017 02:48:23

scidam
Зарегистрирован: 2016-06-15
Сообщения: 288
Репутация: +  35  -
Профиль   Отправить e-mail  

Как такое парсить - вопросов

В общем случае можно поступить так:

1) Установить PhantomJS и selenium;
2) с использованием phantomjs получить страницу, эмулировать нажатие вкладки отзывы (это можно сделать при помощи phantomjs), немного подождать (или подождать по условию – это также можно сделать),
3) а затем использовать что-то вроде lxml,или bs4, чтобы получить src необходимых изображений.

Другой путь - проанализировать запросы и ответы сервера при работе со страницей, определить все же когда подгружаются нужные данные.

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version