привет
есть html файл (внутри html, css, js …) как удалить из него все теги html, css, js и др.
оставив только сам текст, который не закключен в тегах.
спасибо
я лишь могу через find('<') replace() распарсить. но думаю что есть способы получше?
from bs4 import BeautifulSoup with open('uu.txt','r') as file: html=file.read() result=''.join(BeautifulSoup(html).findAll(text=True)) print result
import html5lib import libxml