Найти - Пользователи
Полная версия: подскажите хранилище для многопоточной обработки документов
Начало » Базы данных » подскажите хранилище для многопоточной обработки документов
1
vlad0405
Доброго времени суток,

в Питоне очень мало.
Гуглил на темы хранилищ для Питона: Redis, CouchDB, MongoDB, Tokyo и так далее.
Но после всего прочитанного каша в голове, опыт только с MySQL и немного SQLite.

У меня следующая задача.
Надо в 1000 - 2000 потоков обрабатывать текстовые документы (после обработки останется примерно 100 кб в каждом документе) и складывать их в какое-нибудь хранилище.

Подскажите пожалуйста какое хранилище лучше всего для этого подойдет в Python3.
o7412369815963
в файликах хранить.
можно ещё глянуть на mongoFS (или типа того)
vlad0405
Каждым потоком открывать отдельный файл?
Или сначала в словарь, а потом результат всех потоков в один файл, а потом уже когда потребуется разбирать этот файл?
Как лучше?
kachayev
2000 файлов по 100 кб это не большая нагрузка: ни на оперативную память, ни на фс. Можно в thread-ах обрабатывать файлы и писать в один открытый. Если уже припечет по скорости записи или чтения в “итоговом” хранилище, то возьми redis и пиши данные list (по одному item на строку, например).
vlad0405
Спасибо!
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB