Найти - Пользователи
Полная версия: очистить текст от html тегов
Начало » Python для новичков » очистить текст от html тегов
1
ilnur
привет

есть html файл (внутри html, css, js …) как удалить из него все теги html, css, js и др.
оставив только сам текст, который не закключен в тегах.

спасибо

я лишь могу через find('<') replace() распарсить. но думаю что есть способы получше?
FishHook
from bs4 import BeautifulSoup
with open('uu.txt','r') as file:
    html=file.read()
result=''.join(BeautifulSoup(html).findAll(text=True))
print result
Saturn
Посмотри исходник Django функции strip_tags
Psixo
import html5lib
import libxml
Дальше смотрим документацию по этим библиотекам.
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB