Evg
Апрель 18, 2009 20:49:37
Делаю парсер страниц, полученный контент разбавлен тегами типа <p> <br> итп, как быстро отчисить текст от всех тегов и при возможности сохранить переносы итп, есть ли что готовое решение или нужно самому писать?
bobry
Апрель 19, 2009 03:02:20
можно регулярным выражением все удалить
www.google.comPS. а вообще по моему в lxml.html было что то для этого
slav0nic
Апрель 19, 2009 13:26:58
http://code.djangoproject.com/browser/django/trunk/django/core/template/defaultfilters.py?rev=1018#L174 как вариант
а так, через HTMLParser не сложно сделать, просто пропускать html теги, а пишешь лишь то, что попадает в handle_data + заменять теги p, b на перенос