Уведомления

Группа в Telegram: @pythonsu

#1 Март 24, 2011 17:46:29

Теня
От:
Зарегистрирован: 2008-05-07
Сообщения: 3
Репутация: +  0  -
Профиль   Отправить e-mail  

Парсинг html

коллеги, всем привет. Я не проф программист на питон. У меня сейчас есть очень срочная задача, не до конца понимаю как решить помогите-направьте! Суть, у меня есть url отдающий htmlку, в ней несколько таблиц, нужно вырезать из кода первую таблицу и сохранить как html файлик. Как я понимаю сие делается методами htmllib - напрвьте меня на примеры, примерно какие методами и как?



Офлайн

#2 Март 24, 2011 17:51:27

Теня
От:
Зарегистрирован: 2008-05-07
Сообщения: 3
Репутация: +  0  -
Профиль   Отправить e-mail  

Парсинг html

А, мальенькое добавление - ОЧЕНЬ желательно все сделать средствами стандартной библиотеки.



Офлайн

#3 Март 24, 2011 18:21:03

o7412369815963
От:
Зарегистрирован: 2009-06-17
Сообщения: 1986
Репутация: +  32  -
Профиль   Отправить e-mail  

Парсинг html

вот пример - получает по url страницу и выкусывает кусок кода регепсами.

Офлайн

#4 Март 24, 2011 18:55:42

Александр Кошелев
От: Москва
Зарегистрирован: 2007-02-03
Сообщения: 1724
Репутация: +  2  -
Профиль   Отправить e-mail  

Парсинг html

Теня
А, мальенькое добавление - ОЧЕНЬ желательно все сделать средствами стандартной библиотеки.
Откуда такое требование?



Офлайн

#5 Март 24, 2011 21:18:25

Теня
От:
Зарегистрирован: 2008-05-07
Сообщения: 3
Репутация: +  0  -
Профиль   Отправить e-mail  

Парсинг html

Александр Кошелев
Теня
А, мальенькое добавление - ОЧЕНЬ желательно все сделать средствами стандартной библиотеки.
Откуда такое требование?
Есть страничка которая генерится Nagios, нужно вырезать таблицу и оставить только нужную информацию и показывать это заказчику. Это задача минимум. Так это все ставиться в ну очень энтерпрайзном окружении, будет сложно доставлять дополнительные модули, + мы задачу развертывания часто будем не сами решать. Соотв нужно максимально стандартным средствами и упрошенно сделать. Но это скорее пожелание.



Отредактировано (Март 24, 2011 21:20:48)

Офлайн

#6 Март 25, 2011 08:04:21

zheromo
От:
Зарегистрирован: 2010-10-02
Сообщения: 356
Репутация: +  2  -
Профиль   Отправить e-mail  

Парсинг html

Если таблицы не вложенные

>>> body = ' .... <table border="0"> table1 content </table> ..... <table> table
2 content </table> .... '
>>> body[body.index('<table') : body.index('</table>')+8]
'<table border="0"> table1 content </table>'



Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version