DjangoBB LoFi version

Найти - Пользователи

Полная версия: Найти подстроку в строке html кода

Начало » Центр помощи » Найти подстроку в строке html кода

1 2 3

Андрей Светлов

Дек. 10, 2010 17:42:35

Zubchick, <title> можно писать любым регистром - и это допускается.

AlexAV

Дек. 10, 2010 21:20:31

Андрей Светлов
Просмотр кода показал, что разбор XML делается через регулярки. Которые - кривоватые.

…

Мораль: если работаете со структурированным текстом - используйте библиотеки, предназначенные для обрабатываемого формата.
Иначе довольно легко можно поймать неожиданное. Чем больше у вашей поделки пользователей - тем выше шанс споткнуться.

xml разбирать через регулярки действительно странно. Но некоторые html страницы, ИМХО, никак не тянут на “структурированный текст”.

Virtuos86

Дек. 13, 2010 12:20:51

Мне показалось, или полный ответ так и не был приведен?

data = '<html><title>{?TITLE?}</title><body>{?TITLE?}</body></html>'

title = '{?TITLE?}'

def findall(string, substring):
    length = len(substring)
    result = []
    temp = start = 0
    while True:
        temp = data.find(title, start)
        if temp == -1: break
        result.append(temp)
        start = temp   length
    return result

print findall(data, title)

При простом поиске подстроки find не будет сильно уступать регулярке в скорости.

Dit81

Дек. 13, 2010 12:59:07

Virtuos86
Мне показалось, или полный ответ так и не был приведен?
data = '<html><title>{?TITLE?}</title><body>{?TITLE?}</body></html>'

title = '{?TITLE?}'

def findall(string, substring):
 length = len(substring)
 result = []
 temp = start = 0
 while True:
 temp = data.find(title, start)
 if temp == -1: break
 result.append(temp)
 start = temp length
 return result

print findall(data, title)
При простом поиске подстроки find не будет сильно уступать регулярке в скорости.

Полного ответа не было, но я уже делаю через find… За приведенный код огромное спасибо!!! Так как только изучаю python.

o7412369815963

Дек. 16, 2010 08:20:33

>>> data = '<html><Title>{?TITLE?}</title><body>{?TITLE?}</body></html>'
>>> re.findall(r'<Title>(.*?)</title>',data,re.I)
['{?TITLE?}']

lepriconl

Фев. 16, 2011 17:14:16

Люди добрые!!!! помогите!!! спасите жизнь человека!!! вешаюсь! Ситуация очень похожая, но…. у меня страница имеет такой вид:
<html>
<title>
title
</title>
<body>
body
</body>

test

</html>

как мне найти test? я перепробовал сто вариантов… но ничего не выходит… вот на чем я остановился…

http = Get('http://moovie.ru/film/the_tourist')
r1 = re.compile(r'(.*?)').findall(http)
for rCLS in r1:
print rCLS
если бы все было в одну строчку, то нет проблем, а так он не хочет находить….. помогите!!!

PooH

Фев. 16, 2011 19:44:19

r1 = re.compile(r'<p>(.*?)</p>',  re.DOTALL).findall(http)

Андрей Светлов

Фев. 16, 2011 19:46:44

И все же разгребать регулярками html - не комильфо

lepriconl

Фев. 17, 2011 11:15:34

Спасибо огромное!!! а еще такой вопрос… ситуация как бы таже самая, но немного другая:

Люди добрые!!!! помогите!!! спасите жизнь человека!!! вешаюсь! Ситуация очень похожая, но…. у меня страница имеет такой вид:
<html>
<title>
title
</title>
<body>
body
</body>

test

Год: 2010 
Жанр: Боевик 
</html>

как мне найти именно год?
http = Get('http://moovie.ru/film/the_tourist')
r1 = re.compile(r'Год: (.*?) ', re.DOTALL).findall(http)
for rCLS in r1:
print rCLS

Андрей Светлов

Фев. 17, 2011 11:30:25

Да вешайтесь уже, что ли…