Уведомления

Группа в Telegram: @pythonsu

#1 Фев. 5, 2013 13:09:58

ilnur
От: Казань
Зарегистрирован: 2009-01-06
Сообщения: 524
Репутация: +  22  -
Профиль   Отправить e-mail  

очистить текст от html тегов

привет

есть html файл (внутри html, css, js …) как удалить из него все теги html, css, js и др.
оставив только сам текст, который не закключен в тегах.

спасибо

я лишь могу через find('<') replace() распарсить. но думаю что есть способы получше?

Отредактировано ilnur (Фев. 5, 2013 13:10:54)

Офлайн

#2 Фев. 5, 2013 13:27:06

FishHook
От:
Зарегистрирован: 2011-01-08
Сообщения: 8312
Репутация: +  568  -
Профиль   Отправить e-mail  

очистить текст от html тегов

from bs4 import BeautifulSoup
with open('uu.txt','r') as file:
    html=file.read()
result=''.join(BeautifulSoup(html).findAll(text=True))
print result



Офлайн

#3 Фев. 5, 2013 22:14:44

Saturn
От:
Зарегистрирован: 2012-03-22
Сообщения: 164
Репутация: +  0  -
Профиль   Отправить e-mail  

очистить текст от html тегов

Посмотри исходник Django функции strip_tags



Офлайн

#4 Фев. 6, 2013 06:36:04

Psixo
От:
Зарегистрирован: 2007-09-12
Сообщения: 113
Репутация: +  0  -
Профиль   Отправить e-mail  

очистить текст от html тегов

import html5lib
import libxml
Дальше смотрим документацию по этим библиотекам.



Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version