Форум сайта python.su
0
Я скачал страничку с Wikipedia и с помощью re отобрал все ссылки
Потом перехожу по ним и выдает ошибку как от таких ссылок избавится ?
“/ads/1233” полного названия сайта нету
“//bits.wikimedia.org/favicon/wikipedia.ico” здесь тоже ошибка
Офлайн
Проверяйте на наличие
'://'
Отредактировано dimy44 (Ноя. 7, 2014 10:21:16)
Офлайн
0
Допустим
url="Http://www.facebook.com/"
Url1="http://"
Url2="www."
Url3="Facebook.com/"
Отредактировано Egor2010 (Ноя. 7, 2014 10:26:14)
Офлайн
url = "Http://www.facebook.com/" #url = "Http://facebook.com/" if url.find('://') != -1: a, b = url.split('://') if b.lower().startswith('www.'): result = (a + '://', 'www.', b.split('/', 1)[0][4:] + '/') else: result = (a + '://', b.split('/', 1)[0] + '/') print(result) else: print('Oops!')
Отредактировано dimy44 (Ноя. 7, 2014 12:54:47)
Офлайн
0
dimy44можешь дописать если в url нет
http://(то есть ://)
http://
Отредактировано Egor2010 (Ноя. 25, 2014 13:52:13)
Офлайн
0
это сам сделал
else:
url="http://"+url
a, b = url.split('://')
if b.lower().startswith('www.'):
result = (a + '://', 'www.', b.split('/', 1)[0][4:] + '/')
else:
result = (a + '://', b.split('/', 1)[0] + '/')
Отредактировано Egor2010 (Ноя. 7, 2014 17:40:57)
Офлайн
0
dimy44
url = "Http://www.facebook.com/"
#url = "Http://facebook.com/"
if url.find('://') != -1:
a, b = url.split('://')
if b.lower().startswith('www.'):
result = (a + '://', 'www.', b.split('/', 1)[0][4:] + '/')
else:
result = (a + '://', b.split('/', 1)[0] + '/')
print(result)
else:
print('Oops!')
url="https://www.google.ru/?newwindow=1&q=python"
Офлайн
Код работает и без “/” в конце, только, видимо, выдает не то, что вам нужно на данный момент. Покажите, что вы хотите получить, на примере приведенного вами url.
Офлайн
0
извините код немного до этого изменил
if (url.find('://')!= -1):
url_a, url_b=url.split('://')
if url_b.lower().startswith('www.'):
result=(url_a+'://', 'www.', url_b.split('/', 1)[0][4:]+'/', url_b.split('/', 1)[1])
else:
result=(url_a+'://', 'www.', url_b.split('/', 1)[0]+'/', url_b.split('/', 1)[1])
else:
url="http://"+url
url_a, url_b=url.split('://')
if url_b.lower().startswith('www.'):
result=(url_a+'://', 'www.', url_b.split('/', 1)[0][4:]+'/', url_b.split('/', 1)[1])
else:
result=(url_a+'://', 'www.', url_b.split('/', 1)[0]+'/', url_b.split('/', 1)[1])
url=result[0]+result[1]+result[2]+result[3]Офлайн