Python-сообщество

GennadiyVL · Апрель 14, 2017 18:04:15

Добрый день.

Задача:
Отправлять данные из Kafka в Hive.
Данные в Kafka могут появиться быстрее чем запишутся в Hive.

Мой вариант решения - потоки.
На каждое сообщение создаём поток, который убивает себя после отрабоки SQL запроса.
Вот тут возникла сложность, как красиво и правильно проверять что экземпляр класса-потока уже существуют и нужно создать новый экземпляр.

Собственно мой вопрос:
Как красиво и правильно проверять что экземпляр класса-потока уже существуют и нужно создать новый экземпляр класса-потока?

Спасибо!

Отредактировано GennadiyVL (Апрель 14, 2017 23:41:24)

PEHDOM · Апрель 14, 2017 23:35:41

может вам проще обойтись FIFO очередью?
чтонибудь типа Queue, http://john16blog.blogspot.com/2012/05/python-queue.html
ложите данные из Kafka в очередь по мере появления, а уже из очереди пишете в Hive по мере возможности.

==============================
Помещайте код в теги:

[code python][/code]

Бериегите свое и чужое время.

4kpt_V · Апрель 14, 2017 23:57:04

PEHDOM
Идея здравая. Но я бы не юзал питонячью очередь. Очень ненадежная. Есть специальные очереди.

Если это не злобный ентерпрайз, то можно глянуть в сторону beanstalkd. Штука классная, но почти не развивается. Только баги лечат и все.

Альтернативно гляньте rabbitMQ. Имеет свое хранилище и в достаточной мере персистента. Одна из самых надежный очередей. Развивается серьезно. Но для простых задач - это слегка оверхед.

Ну и что-то среднее - можно построить очередь поверх redis или заюзать готовое решение RQ

P.S. Для обоих есть python-обертки.

Python-сообщество

Уведомления

#1 Апрель 14, 2017 18:04:15

Создание потоков при необходимости

#2 Апрель 14, 2017 23:35:41

Создание потоков при необходимости

#3 Апрель 14, 2017 23:57:04

Создание потоков при необходимости

Board footer