Могу ли я вытянуть из PDF нужную мне информацию, преобразовать и передать в другой файл или вывести на экран. Для примера вот суть:
С помощью PyPDF2 достаю текст из PDF.
>>> import PyPDF2 >>> pdfFileObj = open('my.pdf','rb') >>> pdfReader = PyPDF2.PdfFileReader(pdfFileObj) >>> pageObj = pdfReader.getPage(0) >>> P1 = pageObj.extractText() "€111 Some Ct, Some Nice Twp, ST 888881.8 miResidentialExterior: Brick Exterior, Shingle Exterior, Pitched Roof, Shingle Roof, Fencing, Sidewalks, Street Lights, Deck, Patio, Front Yard, Rear Yard, Side Yard(s), No Swimming Pool Ł Utilities: (1)Central Air, (2)Gas Heating, Hot Air......" >>> pageObj = pdfReader.getPage(1) >>> P2 = pageObj.extractText() >>> P2 "€222 Some Ct, Some Nice Twp, ST 999991.8 miResidentialExterior: Brick Exterior, Shingle Exterior, Pitched Roof, Shingle Roof, Fencing, Sidewalks, Street Lights, Deck, Patio, Front Yard, Rear Yard, Side Yard(s), In-Ground Swimming Pool Ł Utilities: (1)No Air Condidioning, (2)Oil Heating, Hot Air......"
И теперь я хочу из этих строк вытянуть значения для других переменных с которыми дальше планируется работа. Вот такой примерно вид переменных хотелось бы получить:
>>> A1ad = '111 Some ct' >>>A1tw = 'Some Nice Twp' >>>A1st = 'ST' >>>A1zp = 88888 >>>A1pool = 'No Swimming Pool' >>>A1util = {A:'Central Air', H:'Gas Heating'}
Такой же принцип и с P2 для переменной A2**. Срезы или индексирование не особо подойдут так как значения могут быть разной длины, но почти всегда имеют какой либо “опознавательный” признак откуда можно начинать поиск, в данном примере ими могут быть значения Exterior: и Ł Utilities:.
Подойдет ли тут стандартное форматирование строки или же модуль re ? Да и вообще возможна ли такая вытяжка данных ?