Форум сайта python.su
0
<br/> Related Tags:<br /> <br/> maker movie<br/> <br/> movie maker<br/> <br/> <br/> movie maker windows 7<br/> <br/> <br/> movie maker 7 windows<br/> <b>true white movie whitening system with led</b><br/> <i>retained puppy canine movie</i><br/> laser movie whitening waterford<br/> long movie implants last<br/> <i>do children have fever movieing</i><br/> my upper movie numb.<br/> dfdfd334d 1<br/> <br/> <br/>
Офлайн
2
Я бы срезами отрезал, от “Related Tags” до “dfdfd334d”.
А потом, заменил <br/> на \n, потом рег-кой убрал бы, лишние тэги.
Рег-ка для замены html символов.
<[^>]+>
Офлайн
0
только регуляркой можно решить эту задачу?
Офлайн
857
>>> import re >>> >>> s = """ ... <br/> ... Related Tags:<br /> ... <br/> ... maker movie<br/> ... <br/> ... movie maker<br/> ... <br/> ... <br/> ... movie maker windows 7<br/> ... <br/> ... <br/> ... movie maker 7 windows<br/> ... <b>true white movie whitening system with led</b><br/> ... <i>retained puppy canine movie</i><br/> ... laser movie whitening waterford<br/> ... long movie implants last<br/> ... <i>do children have fever movieing</i><br/> ... my upper movie numb.<br/> ... dfdfd334d 1<br/> ... <br/> ... <br/> ... """ >>> >>> content = re.search(r'Related Tags:(.*)dfdfd334d', s, re.S) >>> without_tags = re.sub(r'<.+?>', r'', content.group(1)) >>> cleaned = '\n'.join(s for s in without_tags.splitlines() if s) >>> print(cleaned) maker movie movie maker movie maker windows 7 movie maker 7 windows true white movie whitening system with led retained puppy canine movie laser movie whitening waterford long movie implants last do children have fever movieing my upper movie numb. >>>
rustamakhmetovчерез конечный автомат лучше решать подобные задачи - он точный и может вложенные конструкции находить
только регуляркой можно решить эту задачу?
Офлайн