Форум сайта python.su
есть такой код:
import pyPdf
def getPDFContent():
content = ""
# Load PDF into pyPDF
pdf = pyPdf.PdfFileReader(file(filenamePdf, 'rb'))
# Iterate pages
for i in range(0, pdf.getNumPages()):
# Extract text from page and add to content
content += pdf.getPage(i).extractText() + " \n"
# Collapse whitespace
content = u" ".join(content.replace(u"\xa0", u" ").strip().split())
return content
f = open(filenameTxt,'w+')
f.write(getPDFContent())
f.close()
line 8, in getPDFContent for i in range(0, pdf.getNumPages()):
line 534, in readFromStream
raise utils.PdfReadError, "multiple definitions in dictionary"
pyPdf.utils.PdfReadError: multiple definitions in dictionary
Офлайн
весь инет перерыл, может быть плохо искал, но так и не нашел вариантов, как извлечь текст из pdf файла на питоне. Работал на джаве используя pdfbox от апача, все прекрасно работало.. Разве не существует простого решения для парсинга pdf документов на питоне?
Офлайн
Я такое делал с помощью http://www.unixuser.org/~euske/python/pdfminer/index.html - там кстати в комплекте идет скрипт pdf2txt.py который тупо извлекает текст, а вот если чего посложнее надо - разбивка по страницам или извлечение с координатами текста - то придется рыть исходники.
Офлайн
ziroда, уже начал его использовать.. очень плохая дока по этой тулзе
Я такое делал с помощью http://www.unixuser.org/~euske/python/pdfminer/index.html - там кстати в комплекте идет скрипт pdf2txt.py который тупо извлекает текст, а вот если чего посложнее надо - разбивка по страницам или извлечение с координатами текста - то придется рыть исходники.
Офлайн