Уведомления

Группа в Telegram: @pythonsu

#1 Июнь 8, 2021 08:39:41

nosejo22
Зарегистрирован: 2021-06-08
Сообщения: 1
Репутация: +  0  -
Профиль   Отправить e-mail  

Как распарсить этот файл

Здравствуйте.

Есть вот такой файл:

https://grfc.ru/upload/medialibrary/7bd/Perechen-voprosov-dlya-proverki-sootvetstviya-ekspluatatsionnoy-i-tekhnicheskoy-gotovnosti.docx

Как его распарсить?
Я просто сохранил в текстовый, и потом делал f.read(). Потерялись картинки.

Офлайн

#2 Июнь 8, 2021 17:21:09

PEHDOM
Зарегистрирован: 2016-11-28
Сообщения: 2196
Репутация: +  294  -
Профиль   Отправить e-mail  

Как распарсить этот файл

docx это zip архив с блекджеком и шлю… xml и картинками, можете просто выдрать картинки оттуда, если знаете куда их потом поместить, или распарсить xml с помощью одноименного модуля, или воспользоваться готовым модулем для работы с .docx: python-docx.



==============================
Помещайте код в теги:
[code python][/code]
Бериегите свое и чужое время.

Отредактировано PEHDOM (Июнь 8, 2021 17:22:09)

Офлайн

#3 Июнь 8, 2021 18:57:12

doza_and
От:
Зарегистрирован: 2010-08-15
Сообщения: 4138
Репутация: +  252  -
Профиль   Отправить e-mail  

Как распарсить этот файл

nosejo22
Как его распарсить?
Синтакси́ческий ана́лиз (или разбор, жарг. па́рсинг ← англ. parsing) — процесс сопоставления линейной последовательности лексем (слов, токенов) естественного или формального языка с его формальной грамматикой. Результатом обычно является дерево разбора (синтаксическое дерево).
https://ru.wikipedia.org/wiki/Синтаксический_анализ

Вы не определили формальную грамматику или результат синтаксического разбора. Без этого вопрос о способе парсинга не имеет смысла так как данному потоку байт может соответствовать множество различных грамматик.





Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version