Уведомления

Группа в Telegram: @pythonsu

#1 Фев. 19, 2018 10:21:00

Striver
От:
Зарегистрирован: 2006-10-26
Сообщения: 247
Репутация: +  22  -
Профиль   Отправить e-mail  

Преобразование файлов docx в txt

Используем у себя пакет textract для (почти) универсального преобразования различных форматов в голый текст (который в дальнейшем обрабатываем).
Для преобразования из новых вордовских форматов (.docx) textract уже внутри себя использует пакет docx2txt.
Так-то текст получается, НО…
Если в тексте были списки, то информация о их нумерации пропадает, остаётся только само содержание пунктов списка. Т.к. мы обрабатываем всякий юридический ужас (Уставы, Положения и пр.), то информация о номерах пунктов нам нужна.
Преобразователи из других форматов, используемые в textract (например, из .rtf, .doc) эту информацию не теряют.

Вопрос: существует ли какой-то способ конвертации без потери информации о номере?



Офлайн

#2 Фев. 19, 2018 20:45:28

doza_and
От:
Зарегистрирован: 2010-08-15
Сообщения: 4138
Репутация: +  252  -
Профиль   Отправить e-mail  

Преобразование файлов docx в txt

Striver
существует ли какой-то способ
Вопрос непонятен
например
pandoc -s some.docx -o some.txt
Чем не способ?



Офлайн

#3 Фев. 20, 2018 08:00:40

Striver
От:
Зарегистрирован: 2006-10-26
Сообщения: 247
Репутация: +  22  -
Профиль   Отправить e-mail  

Преобразование файлов docx в txt

Спасибо!
pandoc подходит! Правда та версия, что у меня в CentOS 7 из пакета ставится (pandoc-1.12.3.1), формат docx не понимает, но если напрямую скачать с официального сайта бинарник последней версии, то всё хорошо.

На случай, если ещё у кого возникнет такой вопрос, вот команда:

 pandoc -s some.docx -t plain -o some.txt



Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version