Форум сайта python.su
Мужики, вот такая проблема - есть прайс-лист в xls-формате (причем с кучей наворотов - много листов, гиперссылки, скрытые поля), нужно его распарсить. Ну или преобразовать во что-то более удобоваримое и распарсить. Проблема в его сложности и размерах (нужно достать все записи, а их примерно 4500) - OpenOffice выдает “Ошибка сохранения файла”, пример из этой темы - http://python.su/forum/viewtopic.php?id=2002 - также падает с кучей ошибок. Пытался преобразовать в xlsx, но тогда вся инфа записывается в один xml-файл внутри архива, который после разархивации занимает 19 мб. Что посоветуете, как поступить?
Офлайн
Может с csv легче будет?
EnchantnerА тут проблема то в чем? Парси спокойно эти 19 мб, я думаю, не такая сложная и долгая задача для современных машин.
Пытался преобразовать в xlsx, но тогда вся инфа записывается в один xml-файл внутри архива, который после разархивации занимает 19 мб
Офлайн
igor.kaist
из этих 19 мб приходится вручную выковыривать правила, по которым парсить данные.
Сейчас пробую скрипт для опенофиса написать.
Офлайн
А чем xlrd не подходит?
Офлайн
Андрей Светлов
Тогда буду благодарен за ссылку на нормальный док по нему.
Офлайн
Кроме http://www.lexicon.net/sjmachin/xlrd.html - ничего не знаю.
Мне хватало (плюс исходники не очень большие, можно и неплохо комментированные)
Офлайн
Андрей Светлов
Спасибо большое :) Буду пробовать!
Офлайн
в пакете вроде были примеры использования
Офлайн