Найти - Пользователи
Полная версия: Парсинг большого xls
Начало » Python для экспертов » Парсинг большого xls
1
Enchantner
Мужики, вот такая проблема - есть прайс-лист в xls-формате (причем с кучей наворотов - много листов, гиперссылки, скрытые поля), нужно его распарсить. Ну или преобразовать во что-то более удобоваримое и распарсить. Проблема в его сложности и размерах (нужно достать все записи, а их примерно 4500) - OpenOffice выдает “Ошибка сохранения файла”, пример из этой темы - http://python.su/forum/viewtopic.php?id=2002 - также падает с кучей ошибок. Пытался преобразовать в xlsx, но тогда вся инфа записывается в один xml-файл внутри архива, который после разархивации занимает 19 мб. Что посоветуете, как поступить?
igor.kaist
Может с csv легче будет?
Enchantner
Пытался преобразовать в xlsx, но тогда вся инфа записывается в один xml-файл внутри архива, который после разархивации занимает 19 мб
А тут проблема то в чем? Парси спокойно эти 19 мб, я думаю, не такая сложная и долгая задача для современных машин.
P.S. Способов на самом деле много… можно даже через odbc в винде подключить, как базу данных…
Enchantner
igor.kaist
из этих 19 мб приходится вручную выковыривать правила, по которым парсить данные.
Сейчас пробую скрипт для опенофиса написать.
Андрей Светлов
А чем xlrd не подходит?
Enchantner
Андрей Светлов
Тогда буду благодарен за ссылку на нормальный док по нему.
Андрей Светлов
Кроме http://www.lexicon.net/sjmachin/xlrd.html - ничего не знаю.
Мне хватало (плюс исходники не очень большие, можно и неплохо комментированные)
Enchantner
Андрей Светлов
Спасибо большое :) Буду пробовать!
slav0nic
в пакете вроде были примеры использования
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB