Уведомления

Группа в Telegram: @pythonsu

#1 Янв. 7, 2011 15:20:07

will123
От:
Зарегистрирован: 2011-01-07
Сообщения: 3
Репутация: +  0  -
Профиль   Отправить e-mail  

извлечение текста из pdf файла при помощи pyPdf

есть такой код:

import pyPdf

def getPDFContent():
content = ""
# Load PDF into pyPDF
pdf = pyPdf.PdfFileReader(file(filenamePdf, 'rb'))
# Iterate pages
for i in range(0, pdf.getNumPages()):
# Extract text from page and add to content
content += pdf.getPage(i).extractText() + " \n"
# Collapse whitespace
content = u" ".join(content.replace(u"\xa0", u" ").strip().split())
return content

f = open(filenameTxt,'w+')
f.write(getPDFContent())
f.close()
где filenamePdf и filenameTxt пути до пдфки и тхт файла соответственно.
но при попытке парсинга вываливает:
line 8, in getPDFContent for i in range(0, pdf.getNumPages()):
line 534, in readFromStream
raise utils.PdfReadError, "multiple definitions in dictionary"
pyPdf.utils.PdfReadError: multiple definitions in dictionary
Кто нибудь работал с pyPdf? не могу понять в чем проблема.



Офлайн

#2 Янв. 10, 2011 13:47:20

will123
От:
Зарегистрирован: 2011-01-07
Сообщения: 3
Репутация: +  0  -
Профиль   Отправить e-mail  

извлечение текста из pdf файла при помощи pyPdf

весь инет перерыл, может быть плохо искал, но так и не нашел вариантов, как извлечь текст из pdf файла на питоне. Работал на джаве используя pdfbox от апача, все прекрасно работало.. Разве не существует простого решения для парсинга pdf документов на питоне?



Офлайн

#3 Янв. 12, 2011 10:49:00

ziro
От:
Зарегистрирован: 2009-08-13
Сообщения: 225
Репутация: +  8  -
Профиль   Отправить e-mail  

извлечение текста из pdf файла при помощи pyPdf

Я такое делал с помощью http://www.unixuser.org/~euske/python/pdfminer/index.html - там кстати в комплекте идет скрипт pdf2txt.py который тупо извлекает текст, а вот если чего посложнее надо - разбивка по страницам или извлечение с координатами текста - то придется рыть исходники.



Офлайн

#4 Янв. 12, 2011 15:01:37

will123
От:
Зарегистрирован: 2011-01-07
Сообщения: 3
Репутация: +  0  -
Профиль   Отправить e-mail  

извлечение текста из pdf файла при помощи pyPdf

ziro
Я такое делал с помощью http://www.unixuser.org/~euske/python/pdfminer/index.html - там кстати в комплекте идет скрипт pdf2txt.py который тупо извлекает текст, а вот если чего посложнее надо - разбивка по страницам или извлечение с координатами текста - то придется рыть исходники.
да, уже начал его использовать.. очень плохая дока по этой тулзе



Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version