Уведомления

Группа в Telegram: @pythonsu

#1 Апрель 17, 2013 10:08:51

Casy
Зарегистрирован: 2013-04-17
Сообщения: 2
Репутация: +  0  -
Профиль   Отправить e-mail  

Парсинг сложных html-таблиц

Добрый день! Столкнулся с сложной html-таблицей с rowspan и colspan. Таблицу надо распарсить и переработать. Для переработки оптимально было бы “нормализовать” табличку - то есть построить корректный двумерный массив с пустыми значениями вместо спанов.

Уверен, это не сложная задача, но, казалось бы, постоянная - может быть, уже есть решения или модули?

Заранее спасибо

Офлайн

#2 Апрель 17, 2013 17:23:15

reclosedev
От: Н.Новгород
Зарегистрирован: 2012-03-29
Сообщения: 870
Репутация: +  173  -
Профиль   Отправить e-mail  

Парсинг сложных html-таблиц

Для парсинга HTML документов очень удобно использовать lxml.html. На SO я отвечал на вопрос о таблицах с rowspan и colspan, там есть рабочий код. Только ячейки заполняются не пустым значением, а базовым.
http://stackoverflow.com/questions/9978445/parsing-a-table-with-rowspan-and-colspan

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version