Как можно написать цикл для выгрузки данных по Адресу юридического лица, например.
Начинается с Адреса юридического лица, а заканчивается поиск двумя цифрами, в данном случае 11.
Предположительно нужно посчитать всего строк в файле, найти которые начинаются с Адрес юридического лица и заканчиваются до двухзначной цифры, в данном случае 11.
import fitz # pip install PyMuPDF import re doc = fitz.open('ul-1135007001029-20211205201715.pdf') text = '' for page in doc: text += page.get_text() name = re.search('Полное наименование на русском языке\n+(.+)\n+(.+)', text)[0] edit_name = lambda s: s.replace('','') name=edit_name(name.replace('Полное наименование на русском языке','')) name=edit_name(name.replace('\n',' ')) name=edit_name(name.replace(' ОБЩЕСТВО','ОБЩЕСТВО')) name1=edit_name(name.replace('ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ','ООО')) name2=edit_name(name.replace('ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ ','')) date=re.findall('Дата регистрации\n+(.+)', text)[0] capital=re.findall('Размер \(в рублях\)\n+(.+)', text)[0] dolzhnost=re.findall('Должность\n+(.+)', text)[0] director=re.findall('Отчество\n+(.+)+\n+(.+)+\n+(.+)', text)[0] director=' '.join(director) inn = re.findall('ИНН юридического лица\n+(.+)', text)[0] ogrn = re.findall('ОГРН\n+(.+)', text)[0] kpp = re.findall('КПП юридического лица\n+(.+)', text)[0] okved = re.search('Код и наименование вида деятельности\n+(.+)', text)[0] edit_okved = lambda s: s.replace('','') okved=edit_okved(okved.replace('Код и наименование вида деятельности\n','')) index = re.findall('Адрес юридического лица\n+(\d{6})', text)[0] ##y='Адрес юридического лица' ## ##for i in text: ## count=0 ## if r in y: ## if i==r: ## count += 1 address = re.findall('Адрес юридического лица\n+(.+)\n+(.+)\n+(.+)\n+(.+)\n+(.+)\n+(.+)\n+(.+)', text)[0] address=' '.join(address) count = sum(1 for line in text if line.rstrip('\n'))