Python-сообщество

Evg · Апрель 18, 2009 20:49:37

Делаю парсер страниц, полученный контент разбавлен тегами типа <p> <br>   итп, как быстро отчисить текст от всех тегов и при возможности сохранить переносы итп, есть ли что готовое решение или нужно самому писать?

bobry · Апрель 19, 2009 03:02:20

можно регулярным выражением все удалить
www.google.com

PS. а вообще по моему в lxml.html было что то для этого

slav0nic · Апрель 19, 2009 13:26:58

http://code.djangoproject.com/browser/django/trunk/django/core/template/defaultfilters.py?rev=1018#L174 как вариант

а так, через HTMLParser не сложно сделать, просто пропускать html теги, а пишешь лишь то, что попадает в handle_data + заменять теги p, b на перенос

tg : https://t.me/slav0nic

Python-сообщество

Уведомления

#1 Апрель 18, 2009 20:49:37

отчистка от тегов

#2 Апрель 19, 2009 03:02:20

отчистка от тегов

#3 Апрель 19, 2009 13:26:58

отчистка от тегов

Board footer