Форум сайта python.su
Здравствуйте!
Имеется большое количество журналов с OCR в формате djvu, с помощью какого пакета или как можно реализовать поиск по содержимому журналов?
Офлайн
Текст можно извлечь с помощью DjVuLibre, утилита djvutxt(есть питоновская обвязка к ней python-djvulibre, но я ее не пробовал, так что ничего сказать не могу). После чего проиндексировать оный текст какой-нибудь поисковой машинкой, например sphinx
Офлайн