Найти - Пользователи
Полная версия: отчистка от тегов
Начало » Python для новичков » отчистка от тегов
1
Evg
Делаю парсер страниц, полученный контент разбавлен тегами типа <p> <br> &nbsp; итп, как быстро отчисить текст от всех тегов и при возможности сохранить переносы итп, есть ли что готовое решение или нужно самому писать?
bobry
можно регулярным выражением все удалить
www.google.com

PS. а вообще по моему в lxml.html было что то для этого
slav0nic
http://code.djangoproject.com/browser/django/trunk/django/core/template/defaultfilters.py?rev=1018#L174 как вариант

а так, через HTMLParser не сложно сделать, просто пропускать html теги, а пишешь лишь то, что попадает в handle_data + заменять теги p, b на перенос
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB