Уведомления

Группа в Telegram: @pythonsu

#1 Июнь 17, 2017 22:45:33

Valeriy
Зарегистрирован: 2017-06-17
Сообщения: 1
Репутация: +  0  -
Профиль   Отправить e-mail  

Python 3.6.1 извлекаем текст из PDF

Доброго дня имеем (win7 32) Python 3.6.1 с инсталированным PyPDF2, задача извлечь текст
из одностраничного pdf документа (банковская платежка)
вариант1:

>>> import PyPDF2
>>> pdfFileObj=open('test.pdf','rb')
>>> pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
>>> pdfReader.numPages
1
>>> pageObj=pdfReader.getPage(0)
>>> pageObj.extractText()
'\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n'
>>>

текст не выводится подскажите уважаемые в чем причина.
если запускаю из файла:

import PyPDF2
pdf_file = open('test.pdf', ‘rb’)
read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
print(“number=”,number_of_pages)
print()
page = read_pdf.getPage(0)
page_content = page.extractText()
print (page_content.encode('koi8-r'))

результат аналогичный. (

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version