Форум сайта python.su
Доброго времени суток, форумчане. Вроде как разобрался с HTML парсерами, разобрался в регулярках и т.д. Но теперь встала новая задача - спарсить изображения из отзывов Алиэкспреса. Но проблема в том, что они не указаны в самом HTML, а передаются каким-то способом.
Пример, изображения из отзывов товара: http://u.to/6_cQEA (если нельзя, удалите ссылку)
Буду очень признателен, если кто-то даст наводку!
Офлайн
В общем случае можно поступить так:
1) Установить PhantomJS и selenium;
2) с использованием phantomjs получить страницу, эмулировать нажатие вкладки отзывы (это можно сделать при помощи phantomjs), немного подождать (или подождать по условию – это также можно сделать),
3) а затем использовать что-то вроде lxml,или bs4, чтобы получить src необходимых изображений.
Другой путь - проанализировать запросы и ответы сервера при работе со страницей, определить все же когда подгружаются нужные данные.
Офлайн