Уведомления

Группа в Telegram: @pythonsu

#1 Апрель 18, 2009 20:49:37

Evg
От:
Зарегистрирован: 2008-12-25
Сообщения: 346
Репутация: +  -1  -
Профиль   Отправить e-mail  

отчистка от тегов

Делаю парсер страниц, полученный контент разбавлен тегами типа <p> <br> &nbsp; итп, как быстро отчисить текст от всех тегов и при возможности сохранить переносы итп, есть ли что готовое решение или нужно самому писать?



Офлайн

#2 Апрель 19, 2009 03:02:20

bobry
От:
Зарегистрирован: 2008-08-03
Сообщения: 54
Репутация: +  0  -
Профиль   Отправить e-mail  

отчистка от тегов

можно регулярным выражением все удалить
www.google.com

PS. а вообще по моему в lxml.html было что то для этого



Офлайн

#3 Апрель 19, 2009 13:26:58

slav0nic
Команда
От: dp.ua
Зарегистрирован: 2006-05-07
Сообщения: 2260
Репутация: +  41  -
Профиль   Отправить e-mail  

отчистка от тегов

http://code.djangoproject.com/browser/django/trunk/django/core/template/defaultfilters.py?rev=1018#L174 как вариант

а так, через HTMLParser не сложно сделать, просто пропускать html теги, а пишешь лишь то, что попадает в handle_data + заменять теги p, b на перенос

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version