Форум сайта python.su
22
привет
есть html файл (внутри html, css, js …) как удалить из него все теги html, css, js и др.
оставив только сам текст, который не закключен в тегах.
спасибо
я лишь могу через find('<') replace() распарсить. но думаю что есть способы получше?
Отредактировано ilnur (Фев. 5, 2013 13:10:54)
Офлайн
568
from bs4 import BeautifulSoup with open('uu.txt','r') as file: html=file.read() result=''.join(BeautifulSoup(html).findAll(text=True)) print result
Офлайн
0
Посмотри исходник Django функции strip_tags
Офлайн
0
import html5lib import libxml
Офлайн