Уведомления

Группа в Telegram: @pythonsu

#1 Июль 29, 2011 23:01:25

vlad07
От:
Зарегистрирован: 2011-07-29
Сообщения: 5
Репутация: +  0  -
Профиль   Отправить e-mail  

Нужен программист. Многопоточный парсер.

Нужен скоростной парсер на Питоне, минимальная скорость 1000 url в секунду.
Нужна быстрая и стабильная работа парсера.

Присылайте в личку:

1) скорость парсера (url/сек)
2) конфигурация VDS (сервера) необходимая для данной скорости (процессор, RAM и.т.д)
3) что необходимо устанавливать на сервере (версия Питона, дополнительные модули, какие хранилища данных)
4) стоимость
5) сроки написания

Если есть готовое решение, могу купить.
Пишите функционал.



Отредактировано (Июль 29, 2011 23:02:31)

Офлайн

#2 Июль 29, 2011 23:05:44

Андрей Светлов
От:
Зарегистрирован: 2007-05-15
Сообщения: 3137
Репутация: +  14  -
Профиль   Адрес электронной почты  

Нужен программист. Многопоточный парсер.

Не редкость бестолковые требования.



Офлайн

#3 Июль 29, 2011 23:27:31

vlad07
От:
Зарегистрирован: 2011-07-29
Сообщения: 5
Репутация: +  0  -
Профиль   Отправить e-mail  

Нужен программист. Многопоточный парсер.

требования минимальная скорость 1000 url в секунду и стабильная работа скрипта.
Если какие-то 5-10 url не откроются , отправляем их в конец очереди или еще куда-то.

Если при задании минимума работать в 1000 url в секунду будет работать в 900 url в секунду - это не проблема (10 процентов на погрешность)

Не могли бы Вы пояснить почему бестолковые требования?
Питон на такое не способен?



Офлайн

#4 Июль 29, 2011 23:43:25

truporez
От:
Зарегистрирован: 2009-05-08
Сообщения: 266
Репутация: +  6  -
Профиль   Адрес электронной почты  

Нужен программист. Многопоточный парсер.

vlad07
Не могли бы Вы пояснить почему бестолковые требования?
очень неконкретные



Офлайн

#5 Июль 30, 2011 01:49:47

Андрей Светлов
От:
Зарегистрирован: 2007-05-15
Сообщения: 3137
Репутация: +  14  -
Профиль   Адрес электронной почты  

Нужен программист. Многопоточный парсер.

Перво-наперво вы не сказали, что подразумеваете под словом «парсинг».
Скачать 1000 url и выделить из каждого body — не представляет никакого труда.
Мне ни в коем случае не интересно ваше предложение — но абсурдность т.з. впечатляет.



Офлайн

#6 Июль 30, 2011 14:27:30

vlad07
От:
Зарегистрирован: 2011-07-29
Сообщения: 5
Репутация: +  0  -
Профиль   Отправить e-mail  

Нужен программист. Многопоточный парсер.

ТЗ заключается в том, чтобы работало именно с такой скоростью.
А детали в личной переписке.



Офлайн

#7 Июль 30, 2011 20:18:32

Lexander
От:
Зарегистрирован: 2008-09-19
Сообщения: 1139
Репутация: +  33  -
Профиль   Отправить e-mail  

Нужен программист. Многопоточный парсер.

vlad07
ТЗ заключается в том, чтобы работало именно с такой скоростью.
А детали в личной переписке.
То, что вы просите присылать вам в личку как раз и зависит от деталей.
Парсинг (любой сложности) зависит, например, от объема документа.
А способ парсинга вообще зависит от технологии формирования страницы.
Например, парсинг кода, генерируемого javascript, требует использования Webkit- или Firefox-движка и осуществляется его средствами уже после генерации страницы.



Офлайн

#8 Июль 30, 2011 22:47:31

vlad07
От:
Зарегистрирован: 2011-07-29
Сообщения: 5
Репутация: +  0  -
Профиль   Отправить e-mail  

Нужен программист. Многопоточный парсер.

Внутреннюю логику парсера я сам буду писать.
Питон изучаю недавно, и пока не получается подружиться с потоками.
От Вас надо только реализовать скорость 1000 url в секунду и хранилище - которое будет оптимально для такой скорости.
Больше ничего не требуется.



Офлайн

#9 Июль 31, 2011 15:57:03

shep
От:
Зарегистрирован: 2011-07-02
Сообщения: 19
Репутация: +  2  -
Профиль   Отправить e-mail  

Нужен программист. Многопоточный парсер.

Scrapy не пробовали?



Офлайн

#10 Июль 31, 2011 23:37:04

vlad07
От:
Зарегистрирован: 2011-07-29
Сообщения: 5
Репутация: +  0  -
Профиль   Отправить e-mail  

Нужен программист. Многопоточный парсер.

shep
Scrapy не пробовали?
Scrapy рассматриваю как вариант в тех местах, где нужно заполнение форм, куки, авторизация.
(А еще лучше возможно spynner, он умеет javascript)

В моем случае, мне нужен обычный парсинг.

Намучился с 3-м питоном и потоками, установил Python2.6 и pycurl с поддержкой c-ares.
1000 url в секунду проходит легко вот на такой VPS

http://www.hetzner.de/hosting/produkte_vserver/vq12

Вот мануальчик по которому все сделал, если кому интересно:

http://habrahabr.ru/blogs/personal/61960/

Тему можно закрыть.



Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version