Форум сайта python.su
Задача: почистить html страничку от всех тегов <script language=“JavaScript”></script> включая содержимое тегов
решение:
#!/usr/bin/env python
# -*- coding: utf8 -*-
import re
import urllib
page = urllib.urlopen("http://www.google.ru")
rd = page.read()
starttag = re.compile(r'<script>')
endtag = re.compile('</script>')
rd = starttag_re.sub('', rd)
rd = endtag_re.sub('', rd)
print rd
r1 = re.compile(r'<script>.*</script>')
rd = r1.sub('', rd)
starttag = re.compile(r'<script>')
endtag = re.compile('</script>')
rd = starttag_re.sub('', rd)
rd = endtag_re.sub('', rd)
Офлайн
sanisНовичек и без обид это понятно. Но почему же вы все упорно не хотите думать..
p.s.: очень-очень новичек в этом smile так что без обид
<script.*?>.*?</script>
Отредактировано (Янв. 17, 2011 10:03:47)
Офлайн
а! точно! спасибо))
только он не удаляет))
Отредактировано (Янв. 17, 2011 14:00:59)
Офлайн
sanisre.DOTALL | re.IGNORECASE
только он не удаляет))
Отредактировано (Янв. 17, 2011 18:58:46)
Офлайн
# coding: utf8
import re
txt = """<meta name='yandex-verification' content='6eb' />
<script type="text/javascript" src="/static/jquery.js"></script>
<script type="text/javascript">
var tags_all = 0;
</script>
<meta name='yandex-verification' content='6eb' />
"""
print re.compile(r'<script.*?>.*?</script>', re.DOTALL | re.IGNORECASE).sub('', txt)
Отредактировано (Янв. 17, 2011 23:05:25)
Офлайн
всем спасибо за внимание, вопрос закрыт!
Офлайн