Уведомления

Группа в Telegram: @pythonsu

#1 Март 16, 2017 17:51:51

bw
От:
Зарегистрирован: 2007-09-26
Сообщения: 938
Репутация: +  20  -
Профиль   Адрес электронной почты  

[300$] py3, gevent, requests: 6-8 сайтов до 2017-03-26

Заранее извиняюсь перед модераторами, если здесь для объявлений не место, укажите раздел и я перенесу сообщение.

Нужна помощь в разработке парсеров на 6-8 сайтов до конца следующей недели (2017-03-26).

Задача: будет предоставлен API в соответствии с которым нужно разработать по одному Python модулю на один сайт. Так же будет предоставлена рыба фреймворка в виде пакета Python, а разрабатываемые модули буду частью этого пакета. Сам “фреймворк” также может подвергаться изменениям без нарушения совместимости.

Так же нужно учитывать, что разработка будет вестись одновременно несколькими разработчиками с объединением кода в будущем, поэтому сильное отклонение от заданных начальных ограничений не приветствуется. Выбор сторонних зависимостей должен заранее согласовываться. Код будет приниматься мной в виде sdist и я так же буду заниматься его развёртыванием.

Что будем парсить. Собирать будем следующие данные о заданных в виде прямых ссылок товаров с интернет магазинов: цена, стоимость доставки, наличие на складе, все отзывы (тексты, рейтинги, pros/cons и т.д.). Сайты будут европейские и американские, придётся подтянуть свой фр. и испанский, например.

Модули будут разрабатываться в рамках пакета и исполняться как сервер. Взаимодействие потребителя с этим сервером будет происходить через execnet. Никаких планировщиков и никакого кеша не предусмотрено: запрос-ответ. В случае с ревью запрос может быть на полный сбор или только для последних (ревью могут исчисляться тысячами).

Разработка ведётся под Python 3 (3.4/3.5).
Другие значимые зависимости: gevent, requests и lxml.
Какие-либо сторонние фреймворки не используются.

Выход в интернеты будет осуществляться через предоставляемый список прокси + спец. заголовки для этих прокси (внешние IP). Ротация точек выхода, задержки между запросами и работа с кукисами на вас, активные блокировки встречаются в каждом пятом случае.

По итогам этого короткого марафона может быть предложено постоянное сотрудничество, нужно будет привести в порядок эти и ещё около 30 разношёрстных парсеров (одни на Twisted, другие на Mechanize) и поддерживать их до старости.

Детали (рыба пакета, API для реализации и пр.) после начала работы.

Цена вопроса: 50$ за сайт.

..bw



Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version