Форум сайта python.su
Добрый день! Столкнулся с сложной html-таблицей с rowspan и colspan. Таблицу надо распарсить и переработать. Для переработки оптимально было бы “нормализовать” табличку - то есть построить корректный двумерный массив с пустыми значениями вместо спанов.
Уверен, это не сложная задача, но, казалось бы, постоянная - может быть, уже есть решения или модули?
Заранее спасибо
Офлайн
Для парсинга HTML документов очень удобно использовать lxml.html. На SO я отвечал на вопрос о таблицах с rowspan и colspan, там есть рабочий код. Только ячейки заполняются не пустым значением, а базовым.
http://stackoverflow.com/questions/9978445/parsing-a-table-with-rowspan-and-colspan
Офлайн