Python-сообщество

sanis · Янв. 17, 2011 09:06:50

Задача: почистить html страничку от всех тегов <script language=“JavaScript”></script> включая содержимое тегов

решение:

#!/usr/bin/env python
# -*- coding: utf8 -*-
import re
import urllib

page = urllib.urlopen("http://www.google.ru")
rd = page.read()

starttag = re.compile(r'<script>')
endtag = re.compile('</script>')
rd = starttag_re.sub('', rd)
rd = endtag_re.sub('', rd)
print rd

в данном случае удаляет в переменной rd только все теги <script></script>
если использовать конструкцию типа

r1 = re.compile(r'<script>.*</script>')
rd = r1.sub('', rd)

вместо

starttag = re.compile(r'<script>')
endtag = re.compile('</script>')
rd = starttag_re.sub('', rd)
rd = endtag_re.sub('', rd)

ничего не происходит!

p.s.: очень-очень новичек в этом :) так что без обид

cutwater · Янв. 17, 2011 10:02:35

sanis
p.s.: очень-очень новичек в этом smile так что без обид

Новичек и без обид это понятно. Но почему же вы все упорно не хотите думать..

<script.*?>.*?</script>

Вот как-то так для общего случая. Допишите по небходимости.

Отредактировано (Янв. 17, 2011 10:03:47)

sanis · Янв. 17, 2011 13:40:59

а! точно! спасибо))

только он не удаляет))

Отредактировано (Янв. 17, 2011 14:00:59)

PooH · Янв. 17, 2011 18:57:38

sanis
только он не удаляет))

re.DOTALL | re.IGNORECASE
нет?

Вот здесь один из первых отарков съел лаборанта. Это был такой умный отарк, что понимал даже теорию относительности. Он разговаривал с лаборантом, а потом бросился на него и загрыз…

Отредактировано (Янв. 17, 2011 18:58:46)

o7412369815963 · Янв. 17, 2011 22:54:58

# coding: utf8

import re

txt = """<meta name='yandex-verification' content='6eb' /> 
<script type="text/javascript" src="/static/jquery.js"></script> 
<script type="text/javascript"> 
    var tags_all = 0;
</script> 
<meta name='yandex-verification' content='6eb' />
"""

print re.compile(r'<script.*?>.*?</script>', re.DOTALL | re.IGNORECASE).sub('', txt)

Запуск программ из Python
Кодировки в python
Мой блог

Отредактировано (Янв. 17, 2011 23:05:25)

sanis · Янв. 18, 2011 06:58:12

всем спасибо за внимание, вопрос закрыт!

Python-сообщество

Уведомления

#1 Янв. 17, 2011 09:06:50

очистка от java script

#2 Янв. 17, 2011 10:02:35

очистка от java script

#3 Янв. 17, 2011 13:40:59

очистка от java script

#4 Янв. 17, 2011 18:57:38

очистка от java script

#5 Янв. 17, 2011 22:54:58

очистка от java script

#6 Янв. 18, 2011 06:58:12

очистка от java script

Board footer