Форум сайта python.su
Нужен скоростной парсер на Питоне, минимальная скорость 1000 url в секунду.
Нужна быстрая и стабильная работа парсера.
Присылайте в личку:
1) скорость парсера (url/сек)
2) конфигурация VDS (сервера) необходимая для данной скорости (процессор, RAM и.т.д)
3) что необходимо устанавливать на сервере (версия Питона, дополнительные модули, какие хранилища данных)
4) стоимость
5) сроки написания
Если есть готовое решение, могу купить.
Пишите функционал.
Отредактировано (Июль 29, 2011 23:02:31)
Офлайн
Не редкость бестолковые требования.
Офлайн
требования минимальная скорость 1000 url в секунду и стабильная работа скрипта.
Если какие-то 5-10 url не откроются , отправляем их в конец очереди или еще куда-то.
Если при задании минимума работать в 1000 url в секунду будет работать в 900 url в секунду - это не проблема (10 процентов на погрешность)
Не могли бы Вы пояснить почему бестолковые требования?
Питон на такое не способен?
Офлайн
vlad07очень неконкретные
Не могли бы Вы пояснить почему бестолковые требования?
Офлайн
Перво-наперво вы не сказали, что подразумеваете под словом «парсинг».
Скачать 1000 url и выделить из каждого body — не представляет никакого труда.
Мне ни в коем случае не интересно ваше предложение — но абсурдность т.з. впечатляет.
Офлайн
ТЗ заключается в том, чтобы работало именно с такой скоростью.
А детали в личной переписке.
Офлайн
vlad07То, что вы просите присылать вам в личку как раз и зависит от деталей.
ТЗ заключается в том, чтобы работало именно с такой скоростью.
А детали в личной переписке.
Офлайн
Внутреннюю логику парсера я сам буду писать.
Питон изучаю недавно, и пока не получается подружиться с потоками.
От Вас надо только реализовать скорость 1000 url в секунду и хранилище - которое будет оптимально для такой скорости.
Больше ничего не требуется.
Офлайн
Scrapy не пробовали?
Офлайн
shepScrapy рассматриваю как вариант в тех местах, где нужно заполнение форм, куки, авторизация.
Scrapy не пробовали?
Офлайн