DjangoBB LoFi version

Начало » Python для новичков » отчистка от тегов

Evg

Апрель 18, 2009 20:49:37

Делаю парсер страниц, полученный контент разбавлен тегами типа <p> <br>   итп, как быстро отчисить текст от всех тегов и при возможности сохранить переносы итп, есть ли что готовое решение или нужно самому писать?

bobry

Апрель 19, 2009 03:02:20

можно регулярным выражением все удалить
www.google.com

PS. а вообще по моему в lxml.html было что то для этого

slav0nic

Апрель 19, 2009 13:26:58

http://code.djangoproject.com/browser/django/trunk/django/core/template/defaultfilters.py?rev=1018#L174 как вариант

а так, через HTMLParser не сложно сделать, просто пропускать html теги, а пишешь лишь то, что попадает в handle_data + заменять теги p, b на перенос