Форум сайта python.su
Делаю парсер страниц, полученный контент разбавлен тегами типа <p> <br> итп, как быстро отчисить текст от всех тегов и при возможности сохранить переносы итп, есть ли что готовое решение или нужно самому писать?
Офлайн
можно регулярным выражением все удалить
www.google.com
PS. а вообще по моему в lxml.html было что то для этого
Офлайн
http://code.djangoproject.com/browser/django/trunk/django/core/template/defaultfilters.py?rev=1018#L174 как вариант
а так, через HTMLParser не сложно сделать, просто пропускать html теги, а пишешь лишь то, что попадает в handle_data + заменять теги p, b на перенос
Офлайн