Найти - Пользователи
Полная версия: Преобразование файлов docx в txt
Начало » Python для экспертов » Преобразование файлов docx в txt
1
Striver
Используем у себя пакет textract для (почти) универсального преобразования различных форматов в голый текст (который в дальнейшем обрабатываем).
Для преобразования из новых вордовских форматов (.docx) textract уже внутри себя использует пакет docx2txt.
Так-то текст получается, НО…
Если в тексте были списки, то информация о их нумерации пропадает, остаётся только само содержание пунктов списка. Т.к. мы обрабатываем всякий юридический ужас (Уставы, Положения и пр.), то информация о номерах пунктов нам нужна.
Преобразователи из других форматов, используемые в textract (например, из .rtf, .doc) эту информацию не теряют.

Вопрос: существует ли какой-то способ конвертации без потери информации о номере?
doza_and
Striver
существует ли какой-то способ
Вопрос непонятен
например
pandoc -s some.docx -o some.txt
Чем не способ?
Striver
Спасибо!
pandoc подходит! Правда та версия, что у меня в CentOS 7 из пакета ставится (pandoc-1.12.3.1), формат docx не понимает, но если напрямую скачать с официального сайта бинарник последней версии, то всё хорошо.

На случай, если ещё у кого возникнет такой вопрос, вот команда:
 pandoc -s some.docx -t plain -o some.txt
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB