Уведомления

Группа в Telegram: @pythonsu

#1 Март 11, 2013 09:55:26

rustamakhmetov
От:
Зарегистрирован: 2011-07-12
Сообщения: 14
Репутация: +  0  -
Профиль   Отправить e-mail  

помогите с регуляркой

<br/>
Related Tags:<br />
<br/>
maker movie<br/>
<br/>
movie maker<br/>
<br/>
<br/>
movie maker windows 7<br/>
<br/>
<br/>
movie maker 7 windows<br/>
<b>true white movie whitening system with led</b><br/>
<i>retained puppy canine movie</i><br/>
laser movie whitening waterford<br/>
long movie implants last<br/>
<i>do children have fever movieing</i><br/>
my upper movie numb.<br/>
dfdfd334d 1<br/>
<br/>
<br/>

Нужно получить все предложения без тэгов между “Related Tags” и “dfdfd334d”.
Должно получиться:
maker movie
movie maker
movie maker windows 7
movie maker 7 windows
true white movie whitening system with led
retained puppy canine movie
laser movie whitening waterford
long movie implants last
do children have fever movieing
my upper movie numb



Офлайн

#2 Март 11, 2013 10:10:19

mironich
От:
Зарегистрирован: 2011-05-23
Сообщения: 118
Репутация: +  2  -
Профиль   Отправить e-mail  

помогите с регуляркой

Я бы срезами отрезал, от “Related Tags” до “dfdfd334d”.
А потом, заменил <br/> на \n, потом рег-кой убрал бы, лишние тэги.
Рег-ка для замены html символов.

<[^>]+>



Офлайн

#3 Март 11, 2013 10:14:24

rustamakhmetov
От:
Зарегистрирован: 2011-07-12
Сообщения: 14
Репутация: +  0  -
Профиль   Отправить e-mail  

помогите с регуляркой

только регуляркой можно решить эту задачу?



Офлайн

#4 Март 11, 2013 11:54:09

py.user.next
От:
Зарегистрирован: 2010-04-29
Сообщения: 10015
Репутация: +  857  -
Профиль   Отправить e-mail  

помогите с регуляркой

>>> import re
>>> 
>>> s = """
... <br/>
... Related Tags:<br />
... <br/>
... maker movie<br/>
... <br/>
... movie maker<br/>
... <br/>
... <br/>
... movie maker windows 7<br/>
... <br/>
... <br/>
... movie maker 7 windows<br/>
... <b>true white movie whitening system with led</b><br/>
... <i>retained puppy canine movie</i><br/>
... laser movie whitening waterford<br/>
... long movie implants last<br/>
... <i>do children have fever movieing</i><br/>
... my upper movie numb.<br/>
... dfdfd334d 1<br/>
... <br/>
... <br/>
... """
>>> 
>>> content = re.search(r'Related Tags:(.*)dfdfd334d', s, re.S)
>>> without_tags = re.sub(r'<.+?>', r'', content.group(1))
>>> cleaned = '\n'.join(s for s in without_tags.splitlines() if s)
>>> print(cleaned)
maker movie
movie maker
movie maker windows 7
movie maker 7 windows
true white movie whitening system with led
retained puppy canine movie
laser movie whitening waterford
long movie implants last
do children have fever movieing
my upper movie numb.
>>>

rustamakhmetov
только регуляркой можно решить эту задачу?
через конечный автомат лучше решать подобные задачи - он точный и может вложенные конструкции находить



Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version