Уведомления

Группа в Telegram: @pythonsu

#1 Фев. 1, 2025 11:08:10

rownong
Зарегистрирован: 2025-02-01
Сообщения: 4
Репутация: +  0  -
Профиль   Отправить e-mail  

Как с помощью Python из файла Word удалить ненужные изображения и таблицы?

Здравствуйте.

После экспорта из PDF в Word (через) в файле остается много не нужных артефактов в тексте:
- бессмысленные части картинок
- пустые таблицы из 1 ячейки

Нужно реализовать следующее решение на базе Python и Google Colab:
1. Добавляю файл Word, через кнопку “загрузить”.
2. Вывести в интерфейсе миниатюры всех изображений и таблиц (в 1 экземпляре) с галочкой рядом.
3. Снимаю галочки у не нужных изображений и таблиц.
4. Подтверждаю.
5. Из файла Word удаляются изображения и таблицы, с которых я снял галочки.
6. Авто-скачивание файла Word на ПК.

Скрипт для удаление изображений и таблиц из Word
https://colab.research.google.com/drive/1armS0g5_hnUtLt6pr-ZnsCoKxazRKrbj
Образец файла
https://disk.yandex.ru/i/VQkZzn7LQflE1Q

Таблица выводит в интерфейс.
Изображения и фигуры из word не выводит. Помогите, пожалуйста, найти ошибку. Что поправить?

Отредактировано rownong (Фев. 1, 2025 11:09:10)

Офлайн

#2 Фев. 1, 2025 11:51:13

rownong
Зарегистрирован: 2025-02-01
Сообщения: 4
Репутация: +  0  -
Профиль   Отправить e-mail  

Как с помощью Python из файла Word удалить ненужные изображения и таблицы?

Сможете подсказать?

Офлайн

#3 Фев. 1, 2025 12:49:02

rownong
Зарегистрирован: 2025-02-01
Сообщения: 4
Репутация: +  0  -
Профиль   Отправить e-mail  

Как с помощью Python из файла Word удалить ненужные изображения и таблицы?

Доступ к файлу гугл колаб открыл.

Офлайн

#4 вчера 10:36:40

mediumclump
Зарегистрирован: 2025-02-07
Сообщения: 1
Репутация: +  -1  -
Профиль   Отправить e-mail  

Как с помощью Python из файла Word удалить ненужные изображения и таблицы?

rownong
Hello. After exporting from PDF to Word (via), the file contains a lot of unnecessary artifacts in the text: - meaningless parts of pictures - empty tables from 1 cell The following solution needs to be implemented using Python and Google Colab: 1. I add a Word file via the “upload” button. 2. Display thumbnails of all images and tables (in 1 copy) with a check mark next to them in the interface. 3. I uncheck the unnecessary images and tables. 4. I confirm. 5. The images and tables from which I unchecked are deleted from the Word file. 6. Auto-download the Word file to your PC. Script for deleting images and tables from Word https://colab.research.google.com/drive/1armS0g5_hnUtLt6pr-ZnsCoKxazRKrbj Scratch Geometry Dash Sample file https://disk.yandex.ru/i/VQkZzn7LQflE1Q The table is displayed in the interface. Images and figures from Word are not displayed. Please help me find the error. What should I fix?
Ваш скрипт уже выводит таблицы, но, вероятно, проблема с выводом изображений связана с их обработкой или неправильным извлечением.
Извлекает и показывает изображения и таблицы из Word.
Позволяет выбрать, какие элементы удалить.
Сохраняет и автоматически скачивает обновлённый Word-файл.
Давайте начнем с исправления кода.
Использовать библиотеку python-docx для работы с Word.
Для извлечения изображений использовать модуль docx2python или python-docx.
Отобразить изображения в Colab через интерфейс с виджетами (IPython.display).

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version