Найти - Пользователи
Полная версия: Как с помощью Python из файла Word удалить ненужные изображения и таблицы?
Начало » Python для новичков » Как с помощью Python из файла Word удалить ненужные изображения и таблицы?
1
rownong
Здравствуйте.

После экспорта из PDF в Word (через) в файле остается много не нужных артефактов в тексте:
- бессмысленные части картинок
- пустые таблицы из 1 ячейки

Нужно реализовать следующее решение на базе Python и Google Colab:
1. Добавляю файл Word, через кнопку “загрузить”.
2. Вывести в интерфейсе миниатюры всех изображений и таблиц (в 1 экземпляре) с галочкой рядом.
3. Снимаю галочки у не нужных изображений и таблиц.
4. Подтверждаю.
5. Из файла Word удаляются изображения и таблицы, с которых я снял галочки.
6. Авто-скачивание файла Word на ПК.

Скрипт для удаление изображений и таблиц из Word
https://colab.research.google.com/drive/1armS0g5_hnUtLt6pr-ZnsCoKxazRKrbj
Образец файла
https://disk.yandex.ru/i/VQkZzn7LQflE1Q

Таблица выводит в интерфейс.
Изображения и фигуры из word не выводит. Помогите, пожалуйста, найти ошибку. Что поправить?
rownong
Сможете подсказать?
rownong
Доступ к файлу гугл колаб открыл.
mediumclump
rownong
Hello. After exporting from PDF to Word (via), the file contains a lot of unnecessary artifacts in the text: - meaningless parts of pictures - empty tables from 1 cell The following solution needs to be implemented using Python and Google Colab: 1. I add a Word file via the “upload” button. 2. Display thumbnails of all images and tables (in 1 copy) with a check mark next to them in the interface. 3. I uncheck the unnecessary images and tables. 4. I confirm. 5. The images and tables from which I unchecked are deleted from the Word file. 6. Auto-download the Word file to your PC. Script for deleting images and tables from Word https://colab.research.google.com/drive/1armS0g5_hnUtLt6pr-ZnsCoKxazRKrbj Scratch Geometry Dash Sample file https://disk.yandex.ru/i/VQkZzn7LQflE1Q The table is displayed in the interface. Images and figures from Word are not displayed. Please help me find the error. What should I fix?
Ваш скрипт уже выводит таблицы, но, вероятно, проблема с выводом изображений связана с их обработкой или неправильным извлечением.
Извлекает и показывает изображения и таблицы из Word.
Позволяет выбрать, какие элементы удалить.
Сохраняет и автоматически скачивает обновлённый Word-файл.
Давайте начнем с исправления кода.
Использовать библиотеку python-docx для работы с Word.
Для извлечения изображений использовать модуль docx2python или python-docx.
Отобразить изображения в Colab через интерфейс с виджетами (IPython.display).
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB