Python-сообщество

tuz · Фев. 25, 2014 13:30:09

Добры день.
Есть такая строка:

<a href="http://site.com/images/.../image.jpg"><img alt="изображение" class="aligncenter size-full wp-image-6026" height="346" src="http://site.com/images/.../image.jpg" width="530" /></a>

Необходимо убрать тег <a> и атрибуты классов. Тоесть привести к такому виду:

<img alt="изображение" src="http://site.com/images/.../image.jpg" width="530" />

Как это реализовать правильно?
Заранее всем спасибо!

alexsis · Фев. 25, 2014 14:09:45

import re
p = re.compile('<img.*/>')
string = p.findall(string)

p.s. http://docs.python.org/2/library/re.html

Отредактировано alexsis (Фев. 25, 2014 14:11:48)

tuz · Фев. 25, 2014 14:18:10

alexsis
import re p = re.compile('<img.*/>') string = p.findall(string)

Не совсем то. Задача состоит не в получении нужных атрибутов и т.п. В этом ничего сложного нет, а именно в замене: убирании тега <a> и удаление class=…

Rodegast · Фев. 25, 2014 14:34:20

Самое первое что пришло в голову:
1) Через регулярку находишь подстроку.
2) через find находишь её начало
3) через len находишь её длину
4) через срез удаляешь фрагмент строки

С дураками и сектантами не спорю, истину не ищу.
Ели кому-то правда не нравится, то заранее извиняюсь.

tuz · Фев. 25, 2014 14:37:14

Rodegast
Самое первое что пришло в голову:1) Через регулярку находишь подстроку.2) через find находишь её начало3) через len находишь её длину4) через срез удаляешь фрагмент строки

Спасибо. Вроде все элементарно, но вот мой мозг что-то сегодня не работает. )))

dimy44 · Фев. 25, 2014 17:38:52

навскидку вот

import re
pattern = re.compile(r'(<a[^>]+>)|(</a>)|(class="[^"]+")')
print pattern.sub('', text)

py.user.next · Фев. 25, 2014 21:30:48

>>> import lxml.html
>>> 
>>> s = """<a href="http://site.com/images/.../image.jpg"><img alt="изображение" class="aligncenter size-full wp-image-6026" height="346" src="http://site.com/images/.../image.jpg" width="530" /></a>"""
>>> 
>>> tag = lxml.html.fragment_fromstring(s).find('img')
>>> del tag.attrib['class']
>>> out = lxml.html.tostring(tag, encoding=str)
>>> out
'<img alt="изображение" height="346" src="http://site.com/images/.../image.jpg" width="530">'
>>>

Python-сообщество

Уведомления

#1 Фев. 25, 2014 13:30:09

Чистка атрибутов

#2 Фев. 25, 2014 14:09:45

Чистка атрибутов

#3 Фев. 25, 2014 14:18:10

Чистка атрибутов

#4 Фев. 25, 2014 14:34:20

Чистка атрибутов

#5 Фев. 25, 2014 14:37:14

Чистка атрибутов

#6 Фев. 25, 2014 17:38:52

Чистка атрибутов

#7 Фев. 25, 2014 21:30:48

Чистка атрибутов

Board footer