Уведомления

Группа в Telegram: @pythonsu

#1 Фев. 9, 2025 19:28:37

rownong
Зарегистрирован: 2025-02-01
Сообщения: 10
Репутация: +  0  -
Профиль   Отправить e-mail  

Как через Python конвертировать PDF в Word с чистой разметкой?

Здравствуйте.

Нужно из PDF получать в Word с чистой разметкой (текст в стиле заголовка, обычный текст, таблицы, изображения).

Тестировал готовые решения: экспорт в Word в самом pdf, сервисы конвертирования, FineReader. На выходе получаю кашу из артефактов, причем рандомную от файла к файлу.

Вопросы:
1. В PDF разметке есть ли свойство для текста “Заголовок”? Или в PDF только визуально текст выделяют как заголовок?
2. Если использоваться Python библиотеки конвертации из PDF в Word, то можно извлекать по отдельности каждый объект?
3. Если в PDF вместо 1 изображения несколько картинок и текст на слоях, можно ли их “склеить” в одну картинку?

Офлайн

#2 Фев. 11, 2025 22:40:23

py.user.next
От:
Зарегистрирован: 2010-04-29
Сообщения: 9894
Репутация: +  854  -
Профиль   Отправить e-mail  

Как через Python конвертировать PDF в Word с чистой разметкой?

PDF - это контейнер просто, который сделан для того, чтобы его содержимое (контент) одинаково отображалось в любых программах на любых устройствах. Поэтому это не просто там какой-то формат, который просто нужен для чего-то. Там могут быть какие-нибудь отдельные элементы внутри, типа шрифтов там и прочего, а могут быть просто изображения страниц. Его задача - отобразить одинаково, без потерь элементов и без потерь и искажений форматирования. Поэтому смотреть на PDF'ы так, что они все одинаковые, - неправильно. Одно и то же на вид может абсолютно по-разному храниться внутри, ещё и в нескольких вариантах.

rownong
1. В PDF разметке есть ли свойство для текста “Заголовок”? Или в PDF только визуально текст выделяют как заголовок?
Если там есть разметка, то у неё есть все эти элементы, а если там просто картинка, то у ней нет этих элементов, потому что всё это нарисовано целиком, а не собирается по частям.

rownong
2. Если использоваться Python библиотеки конвертации из PDF в Word, то можно извлекать по отдельности каждый объект?
Там может не быть отдельных объектов. Там могут быть отдельные объекты, но тоже при этом быть не в одном виде, а во множестве видов.

rownong
3. Если в PDF вместо 1 изображения несколько картинок и текст на слоях, можно ли их “склеить” в одну картинку?
Ну можно их извлечь и склеить.

Так что разберись с самим форматом этим, он не так прост, как ты думаешь. Обычная бухгалтерша может нагенерить тебе PDF-документов, устроенных по-разному, без особого труда. Серебряной пули, которой можно убить всех вампиров, не существует. Именно поэтому ты до сих пор не нашёл этой программы, которая может из любого PDF'а всё вытянуть.



Отредактировано py.user.next (Фев. 11, 2025 22:47:17)

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version