Python-сообщество

pythonwin · Март 19, 2007 06:10:54

взято из http://forum.vingrad.ru/topic-141788/0.html#entry1068851

kulibinka
Суть задачи: есть статьи. Их количество около 1 000 000.

Для каждой из них расчитывается куча данных, сохраненных в списках\словарях.
Есть стандартная задача - пробежаться по всем этим данными и как-то их вместе обработать.

Раньше я для каждой из статей найденные данные через модуль маршал сохранял в файликах, и при необходимости подтягивал.

Но когда количество статей переваливает за несколько десятков тысяч начинаются проблемы (даже 10 000 файликов это уже довольно серьезная проблема smile ).

Само собой напрашивается использование базы данных, но для каждого поля сериализировать и при необходимости рассериализировать списки\словари каждый раз это никому не нужный и большущий расход ресурсов.

Пытался использовать pytables (которые в принципе создан для похожих задач), но он при сериализации коцает данные, и их после этого невозможно достать (да и сериализация затратная).

Возможно, есть базы данных типа pytables, но которые напрямую позволяют без проблем и прозрачно сохранять данные родных питоновских типов… А возможно нужно использовать какой-то кардинально другой способ…

Подскажите пожалуйста: как организовать сохранение и обход миллиона (или нескольких) списков\словарей на обычной машине?

tabajara · Март 24, 2007 16:41:09

Для зберігання http://www.zope.org/Products/ZODB3.6
Для пошуку http://www.blazingthings.com/dev/zcatalog.html

Python-сообщество

Уведомления

#1 Март 19, 2007 06:10:54

организовать сохр\обход миллиона словарей

#2 Март 24, 2007 16:41:09

организовать сохр\обход миллиона словарей

Board footer