DjangoBB LoFi version

Полная версия: Как через Python конвертировать PDF в Word с чистой разметкой?

Начало » Python для новичков » Как через Python конвертировать PDF в Word с чистой разметкой?

rownong

Фев. 9, 2025 19:28:37

Здравствуйте.

Нужно из PDF получать в Word с чистой разметкой (текст в стиле заголовка, обычный текст, таблицы, изображения).

Тестировал готовые решения: экспорт в Word в самом pdf, сервисы конвертирования, FineReader. На выходе получаю кашу из артефактов, причем рандомную от файла к файлу.

Вопросы:
1. В PDF разметке есть ли свойство для текста “Заголовок”? Или в PDF только визуально текст выделяют как заголовок?
2. Если использоваться Python библиотеки конвертации из PDF в Word, то можно извлекать по отдельности каждый объект?
3. Если в PDF вместо 1 изображения несколько картинок и текст на слоях, можно ли их “склеить” в одну картинку?

py.user.next

Фев. 11, 2025 22:40:23

PDF - это контейнер просто, который сделан для того, чтобы его содержимое (контент) одинаково отображалось в любых программах на любых устройствах. Поэтому это не просто там какой-то формат, который просто нужен для чего-то. Там могут быть какие-нибудь отдельные элементы внутри, типа шрифтов там и прочего, а могут быть просто изображения страниц. Его задача - отобразить одинаково, без потерь элементов и без потерь и искажений форматирования. Поэтому смотреть на PDF'ы так, что они все одинаковые, - неправильно. Одно и то же на вид может абсолютно по-разному храниться внутри, ещё и в нескольких вариантах.

rownong
1. В PDF разметке есть ли свойство для текста “Заголовок”? Или в PDF только визуально текст выделяют как заголовок?

Если там есть разметка, то у неё есть все эти элементы, а если там просто картинка, то у ней нет этих элементов, потому что всё это нарисовано целиком, а не собирается по частям.

rownong
2. Если использоваться Python библиотеки конвертации из PDF в Word, то можно извлекать по отдельности каждый объект?

Там может не быть отдельных объектов. Там могут быть отдельные объекты, но тоже при этом быть не в одном виде, а во множестве видов.

rownong
3. Если в PDF вместо 1 изображения несколько картинок и текст на слоях, можно ли их “склеить” в одну картинку?

Ну можно их извлечь и склеить.

Так что разберись с самим форматом этим, он не так прост, как ты думаешь. Обычная бухгалтерша может нагенерить тебе PDF-документов, устроенных по-разному, без особого труда. Серебряной пули, которой можно убить всех вампиров, не существует. Именно поэтому ты до сих пор не нашёл этой программы, которая может из любого PDF'а всё вытянуть.

amsterdarkn

Март 7, 2025 09:14:28

Разберем ваши вопросы по порядку:
1. PDF не имеет встроенного “Заголовка”, только визуальное форматирование или теги `<H1>`, `<H2>`.
2. Python-библиотеки (`pdfplumber`, `PyMuPDF`, `pdf2docx`) позволяют извлекать текст, таблицы, изображения отдельно.
3. Склеить текстовые слои и изображения можно через PyMuPDF (рендер страницы в изображение) или Pillow/OpenCV.
Если вам нужна чистая разметка в Word, лучше парсить PDF послойно (текст, таблицы, картинки отдельно) и собирать вручную с помощью python-docx.

Если нужна помощь с кодом, drift hunters cпрашивайте!