DjangoBB LoFi version

Полная версия: извлечение текста из pdf файла при помощи pyPdf

Начало » Python для экспертов » извлечение текста из pdf файла при помощи pyPdf

will123

Янв. 7, 2011 15:20:07

есть такой код:

import pyPdf

def getPDFContent():
    content = ""
    # Load PDF into pyPDF
    pdf = pyPdf.PdfFileReader(file(filenamePdf, 'rb'))
    # Iterate pages
    for i in range(0, pdf.getNumPages()):
        # Extract text from page and add to content
        content += pdf.getPage(i).extractText() + " \n"
    # Collapse whitespace
    content = u" ".join(content.replace(u"\xa0", u" ").strip().split())
    return content

f = open(filenameTxt,'w+')
f.write(getPDFContent())
f.close()

где filenamePdf и filenameTxt пути до пдфки и тхт файла соответственно.
но при попытке парсинга вываливает:

line 8, in getPDFContent for i in range(0, pdf.getNumPages()):
line 534, in readFromStream
    raise utils.PdfReadError, "multiple definitions in dictionary"
pyPdf.utils.PdfReadError: multiple definitions in dictionary

Кто нибудь работал с pyPdf? не могу понять в чем проблема.

will123

Янв. 10, 2011 13:47:20

весь инет перерыл, может быть плохо искал, но так и не нашел вариантов, как извлечь текст из pdf файла на питоне. Работал на джаве используя pdfbox от апача, все прекрасно работало.. Разве не существует простого решения для парсинга pdf документов на питоне?

ziro

Янв. 12, 2011 10:49:00

Я такое делал с помощью http://www.unixuser.org/~euske/python/pdfminer/index.html - там кстати в комплекте идет скрипт pdf2txt.py который тупо извлекает текст, а вот если чего посложнее надо - разбивка по страницам или извлечение с координатами текста - то придется рыть исходники.

will123

Янв. 12, 2011 15:01:37

ziro
Я такое делал с помощью http://www.unixuser.org/~euske/python/pdfminer/index.html - там кстати в комплекте идет скрипт pdf2txt.py который тупо извлекает текст, а вот если чего посложнее надо - разбивка по страницам или извлечение с координатами текста - то придется рыть исходники.

да, уже начал его использовать.. очень плохая дока по этой тулзе