Найти - Пользователи
Полная версия: извлечение текста из pdf файла при помощи pyPdf
Начало » Python для экспертов » извлечение текста из pdf файла при помощи pyPdf
1
will123
есть такой код:
import pyPdf

def getPDFContent():
content = ""
# Load PDF into pyPDF
pdf = pyPdf.PdfFileReader(file(filenamePdf, 'rb'))
# Iterate pages
for i in range(0, pdf.getNumPages()):
# Extract text from page and add to content
content += pdf.getPage(i).extractText() + " \n"
# Collapse whitespace
content = u" ".join(content.replace(u"\xa0", u" ").strip().split())
return content

f = open(filenameTxt,'w+')
f.write(getPDFContent())
f.close()
где filenamePdf и filenameTxt пути до пдфки и тхт файла соответственно.
но при попытке парсинга вываливает:
line 8, in getPDFContent for i in range(0, pdf.getNumPages()):
line 534, in readFromStream
raise utils.PdfReadError, "multiple definitions in dictionary"
pyPdf.utils.PdfReadError: multiple definitions in dictionary
Кто нибудь работал с pyPdf? не могу понять в чем проблема.
will123
весь инет перерыл, может быть плохо искал, но так и не нашел вариантов, как извлечь текст из pdf файла на питоне. Работал на джаве используя pdfbox от апача, все прекрасно работало.. Разве не существует простого решения для парсинга pdf документов на питоне?
ziro
Я такое делал с помощью http://www.unixuser.org/~euske/python/pdfminer/index.html - там кстати в комплекте идет скрипт pdf2txt.py который тупо извлекает текст, а вот если чего посложнее надо - разбивка по страницам или извлечение с координатами текста - то придется рыть исходники.
will123
ziro
Я такое делал с помощью http://www.unixuser.org/~euske/python/pdfminer/index.html - там кстати в комплекте идет скрипт pdf2txt.py который тупо извлекает текст, а вот если чего посложнее надо - разбивка по страницам или извлечение с координатами текста - то придется рыть исходники.
да, уже начал его использовать.. очень плохая дока по этой тулзе
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB