Найти - Пользователи
Полная версия: Как такое парсить - вопросов
Начало » Python для новичков » Как такое парсить - вопросов
1
hoolz
Доброго времени суток, форумчане. Вроде как разобрался с HTML парсерами, разобрался в регулярках и т.д. Но теперь встала новая задача - спарсить изображения из отзывов Алиэкспреса. Но проблема в том, что они не указаны в самом HTML, а передаются каким-то способом.

Пример, изображения из отзывов товара: http://u.to/6_cQEA (если нельзя, удалите ссылку)

Буду очень признателен, если кто-то даст наводку!
scidam
В общем случае можно поступить так:

1) Установить PhantomJS и selenium;
2) с использованием phantomjs получить страницу, эмулировать нажатие вкладки отзывы (это можно сделать при помощи phantomjs), немного подождать (или подождать по условию – это также можно сделать),
3) а затем использовать что-то вроде lxml,или bs4, чтобы получить src необходимых изображений.

Другой путь - проанализировать запросы и ответы сервера при работе со страницей, определить все же когда подгружаются нужные данные.
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB