Python-сообщество

will123 · Янв. 7, 2011 15:20:07

есть такой код:

import pyPdf

def getPDFContent():
    content = ""
    # Load PDF into pyPDF
    pdf = pyPdf.PdfFileReader(file(filenamePdf, 'rb'))
    # Iterate pages
    for i in range(0, pdf.getNumPages()):
        # Extract text from page and add to content
        content += pdf.getPage(i).extractText() + " \n"
    # Collapse whitespace
    content = u" ".join(content.replace(u"\xa0", u" ").strip().split())
    return content

f = open(filenameTxt,'w+')
f.write(getPDFContent())
f.close()

где filenamePdf и filenameTxt пути до пдфки и тхт файла соответственно.
но при попытке парсинга вываливает:

line 8, in getPDFContent for i in range(0, pdf.getNumPages()):
line 534, in readFromStream
    raise utils.PdfReadError, "multiple definitions in dictionary"
pyPdf.utils.PdfReadError: multiple definitions in dictionary

Кто нибудь работал с pyPdf? не могу понять в чем проблема.

will123 · Янв. 10, 2011 13:47:20

весь инет перерыл, может быть плохо искал, но так и не нашел вариантов, как извлечь текст из pdf файла на питоне. Работал на джаве используя pdfbox от апача, все прекрасно работало.. Разве не существует простого решения для парсинга pdf документов на питоне?

ziro · Янв. 12, 2011 10:49:00

Я такое делал с помощью http://www.unixuser.org/~euske/python/pdfminer/index.html - там кстати в комплекте идет скрипт pdf2txt.py который тупо извлекает текст, а вот если чего посложнее надо - разбивка по страницам или извлечение с координатами текста - то придется рыть исходники.

will123 · Янв. 12, 2011 15:01:37

ziro
Я такое делал с помощью http://www.unixuser.org/~euske/python/pdfminer/index.html - там кстати в комплекте идет скрипт pdf2txt.py который тупо извлекает текст, а вот если чего посложнее надо - разбивка по страницам или извлечение с координатами текста - то придется рыть исходники.

да, уже начал его использовать.. очень плохая дока по этой тулзе

Python-сообщество

Уведомления

#1 Янв. 7, 2011 15:20:07

извлечение текста из pdf файла при помощи pyPdf

#2 Янв. 10, 2011 13:47:20

извлечение текста из pdf файла при помощи pyPdf

#3 Янв. 12, 2011 10:49:00

извлечение текста из pdf файла при помощи pyPdf

#4 Янв. 12, 2011 15:01:37

извлечение текста из pdf файла при помощи pyPdf

Board footer