DjangoBB LoFi version

Полная версия: Парсинг сложных html-таблиц

Начало » Python для новичков » Парсинг сложных html-таблиц

Casy

Апрель 17, 2013 10:08:51

Добрый день! Столкнулся с сложной html-таблицей с rowspan и colspan. Таблицу надо распарсить и переработать. Для переработки оптимально было бы “нормализовать” табличку - то есть построить корректный двумерный массив с пустыми значениями вместо спанов.

Уверен, это не сложная задача, но, казалось бы, постоянная - может быть, уже есть решения или модули?

Заранее спасибо

reclosedev

Апрель 17, 2013 17:23:15

Для парсинга HTML документов очень удобно использовать lxml.html. На SO я отвечал на вопрос о таблицах с rowspan и colspan, там есть рабочий код. Только ячейки заполняются не пустым значением, а базовым.
http://stackoverflow.com/questions/9978445/parsing-a-table-with-rowspan-and-colspan