Здравствуйте! Имеется большое количество журналов с OCR в формате djvu, с помощью какого пакета или как можно реализовать поиск по содержимому журналов?
PooH
Фев. 26, 2013 04:57:25
Текст можно извлечь с помощью DjVuLibre, утилита djvutxt(есть питоновская обвязка к ней python-djvulibre, но я ее не пробовал, так что ничего сказать не могу). После чего проиндексировать оный текст какой-нибудь поисковой машинкой, например sphinx
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.