Форум сайта python.su
вообщем задача такая.
есть папка в ней много папок(предположительно пара мильёнов), а в папках есть файлы от 0 до 300 примерно.
проходимся по всем папкам и считаем MD5 файлов, получаем список структур (название папки,список MD5 стрингов).
потом допустим на вход программы подаётся файл у него считается MD5 и надо найти к какой папке относится файл.
как это лучше всего реализовать?
сделать просто базу данных типа ключ название папки - содержимое список стрингов MD5?
п.с. MD5 не принципиально, просто для примера.
Отредактировано mrgloom (Авг. 17, 2012 10:48:53)
Офлайн
наверно лучше перенести в базы данных.
Офлайн
Если смотреть только на эту задачу, то подойдет любое key-value хранилище. Ключом логично сделать md5 файла, а содержимым будет список имен папок, в которых он находится.
Офлайн
mrgloomМодерам пофиг же.
наверно лучше перенести в базы данных.
mrgloomMD5 использовать не рекомендуется, вместо него лучше брать SHA2 и, если надо, обрезать.
MD5
Офлайн
odnochlenпочему?
MD5 использовать не рекомендуется, вместо него лучше брать SHA2 и, если надо, обрезать.
Офлайн
odnochlenДля хеширования? С чего й то?
MD5 использовать не рекомендуется, вместо него лучше брать SHA2 и, если надо, обрезать.
Офлайн
Офлайн
odnochlen
ну не всё на столько плохо) в дебиане например пока MD5 (но хотят заменить), хотя из коллизий в молодости находил несколько пар одинаковых файлов (по чексуме) на двд
Офлайн
odnochlen
Да я в курсе. У SHA-2 тоже коллизии, вследствие чего разрабатывают SHA-3.
О другом речь, зачем тяжелый SHA2 использовать для хеширования?
Офлайн
у меня файлы ихображения и я считаю так
hashlib.md5(img.tostring()).hexdigest()
Офлайн