Уведомления

Группа в Telegram: @pythonsu

#1 Сен. 13, 2018 20:34:32

polin11
Зарегистрирован: 2013-05-02
Сообщения: 58
Репутация: +  0  -
Профиль   Отправить e-mail  

Распарсить таблицу в docx файле

Нужно распарсить файл docx, данные в файле находятся в ячейках таблицы, читаю построчно
файл. Данные из ячеек таблицы приходят разделенные пробелом. Данные в одной ячейки также могут содержать пробелы,
поэтому не могу отделить значение одной ячейки от значения другой.
В Word есть специальный символ - знак окончания текста в ячейке, визуально изображается как знак валют.
В юникоде выводится как print('\u00a4'), пробовал его поймать - не получлось.
Есть ли какие-нибудь соображения на этот счет?

Офлайн

#2 Сен. 13, 2018 23:11:05

doza_and
От:
Зарегистрирован: 2010-08-15
Сообщения: 4138
Репутация: +  253  -
Профиль   Отправить e-mail  

Распарсить таблицу в docx файле

polin11
Нужно распарсить файл docx … читаю построчно
файл
Есть ли какие-нибудь соображения на этот счет?

Покажите код которым читаете файл, выложите файл.
Вообще непонятно как так вы читаете “построчно”. В docx нет строк…

Более или менее разумно можно работать с docx при помощи https://python-docx.readthedocs.io/en/latest/
или https://pandoc.org/

Мой опыт работы с word показывает что данные в ворде - практически бесполезные данные. Усилия по выковыриванию данных в силу огромного многобразия возможных способов хранения сравнимы с трудозатратами при использовании бригады девушек которые копипастом переводят данные в нормальный формат.



Отредактировано doza_and (Сен. 13, 2018 23:12:01)

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version