Большая часть вопроса - в заголовке. Получаю хтмл, требуется преобразовать все пути вида /subdir/file1.html в http://site.com/subdir/file1.html
Чем можно сделать?
import re
html = '''
<a href="http://somesite.ru/url/">
<img src="pics/pic.jpg">
<img src="/pics/pic2.jpg">
</a>
'''
prefix = 'http://site.ru'
print re.sub(r'((href|src)=[\'\"](?!http))(.*?[\'\"])', '\\1%s/\\3' % prefix, html)
mrzaggiнадо просто заняться, они не только полезны, но и интересны
простенько для тех кто умеет регулярки =) А у меня никак не доходят руки заботать их, хотя надобность какждый день возникает =(
mrzaggiЕсли на то пошло, то в lxml специальная функция есть.
Я ничего не генерирую =) я его скачиваю. А вообще походу нашел решение - BS/lxml + urlparse + urljoin сделают дело.