Найти - Пользователи
Полная версия: Как распарсить этот файл
Начало » Python для новичков » Как распарсить этот файл
1
nosejo22
Здравствуйте.

Есть вот такой файл:

https://grfc.ru/upload/medialibrary/7bd/Perechen-voprosov-dlya-proverki-sootvetstviya-ekspluatatsionnoy-i-tekhnicheskoy-gotovnosti.docx

Как его распарсить?
Я просто сохранил в текстовый, и потом делал f.read(). Потерялись картинки.
PEHDOM
docx это zip архив с блекджеком и шлю… xml и картинками, можете просто выдрать картинки оттуда, если знаете куда их потом поместить, или распарсить xml с помощью одноименного модуля, или воспользоваться готовым модулем для работы с .docx: python-docx.
doza_and
nosejo22
Как его распарсить?
Синтакси́ческий ана́лиз (или разбор, жарг. па́рсинг ← англ. parsing) — процесс сопоставления линейной последовательности лексем (слов, токенов) естественного или формального языка с его формальной грамматикой. Результатом обычно является дерево разбора (синтаксическое дерево).
https://ru.wikipedia.org/wiki/Синтаксический_анализ

Вы не определили формальную грамматику или результат синтаксического разбора. Без этого вопрос о способе парсинга не имеет смысла так как данному потоку байт может соответствовать множество различных грамматик.



This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB