DjangoBB LoFi version

Полная версия: Как такое парсить - вопросов

Начало » Python для новичков » Как такое парсить - вопросов

hoolz

Авг. 3, 2017 23:31:22

Доброго времени суток, форумчане. Вроде как разобрался с HTML парсерами, разобрался в регулярках и т.д. Но теперь встала новая задача - спарсить изображения из отзывов Алиэкспреса. Но проблема в том, что они не указаны в самом HTML, а передаются каким-то способом.

Пример, изображения из отзывов товара: http://u.to/6_cQEA (если нельзя, удалите ссылку)

Буду очень признателен, если кто-то даст наводку!

scidam

Авг. 4, 2017 02:48:23

В общем случае можно поступить так:

1) Установить PhantomJS и selenium;
2) с использованием phantomjs получить страницу, эмулировать нажатие вкладки отзывы (это можно сделать при помощи phantomjs), немного подождать (или подождать по условию – это также можно сделать),
3) а затем использовать что-то вроде lxml,или bs4, чтобы получить src необходимых изображений.

Другой путь - проанализировать запросы и ответы сервера при работе со страницей, определить все же когда подгружаются нужные данные.