Найти - Пользователи
Полная версия: Парсинг сложных html-таблиц
Начало » Python для новичков » Парсинг сложных html-таблиц
1
Casy
Добрый день! Столкнулся с сложной html-таблицей с rowspan и colspan. Таблицу надо распарсить и переработать. Для переработки оптимально было бы “нормализовать” табличку - то есть построить корректный двумерный массив с пустыми значениями вместо спанов.

Уверен, это не сложная задача, но, казалось бы, постоянная - может быть, уже есть решения или модули?

Заранее спасибо
reclosedev
Для парсинга HTML документов очень удобно использовать lxml.html. На SO я отвечал на вопрос о таблицах с rowspan и colspan, там есть рабочий код. Только ячейки заполняются не пустым значением, а базовым.
http://stackoverflow.com/questions/9978445/parsing-a-table-with-rowspan-and-colspan
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB