← Сtrl

Egor2010 · Ноя. 7, 2014 02:48:10

Я скачал страничку с Wikipedia и с помощью re отобрал все ссылки
Потом перехожу по ним и выдает ошибку как от таких ссылок избавится ?
“/ads/1233” полного названия сайта нету
“//bits.wikimedia.org/favicon/wikipedia.ico” здесь тоже ошибка

dimy44 · Ноя. 7, 2014 10:20:13

Проверяйте на наличие

'://'

в адресе

Отредактировано dimy44 (Ноя. 7, 2014 10:21:16)

Egor2010 · Ноя. 7, 2014 10:24:58

Допустим

url="Http://www.facebook.com/"

Как разделить url на основные части ?

Url1="http://"
Url2="www."
Url3="Facebook.com/"

Отредактировано Egor2010 (Ноя. 7, 2014 10:26:14)

dimy44 · Ноя. 7, 2014 12:54:16

url = "Http://www.facebook.com/"
#url = "Http://facebook.com/"
if url.find('://') != -1:
    a, b = url.split('://')
    if b.lower().startswith('www.'):
        result = (a + '://', 'www.', b.split('/', 1)[0][4:] + '/')
    else:
        result = (a + '://', b.split('/', 1)[0] + '/')
    print(result)
else:
    print('Oops!')

не ахти красиво, но понятно

Отредактировано dimy44 (Ноя. 7, 2014 12:54:47)

Egor2010 · Ноя. 7, 2014 14:02:38

dimy44

можешь дописать если в url нет

http://(то есть ://)

чтобы он добовлял

http://

Отредактировано Egor2010 (Ноя. 25, 2014 13:52:13)

Egor2010 · Ноя. 7, 2014 17:40:43

это сам сделал

else:
    url="http://"+url
    a, b = url.split('://')
    if b.lower().startswith('www.'):
        result = (a + '://', 'www.', b.split('/', 1)[0][4:] + '/')
    else:
        result = (a + '://', b.split('/', 1)[0] + '/')

а вот как сделать чтобы он отбирал все что в конце, после / ?

Отредактировано Egor2010 (Ноя. 7, 2014 17:40:57)

Egor2010 · Ноя. 26, 2014 08:51:45

dimy44

url = "Http://www.facebook.com/"
#url = "Http://facebook.com/"
if url.find('://') != -1:
    a, b = url.split('://')
    if b.lower().startswith('www.'):
        result = (a + '://', 'www.', b.split('/', 1)[0][4:] + '/')
    else:
        result = (a + '://', b.split('/', 1)[0] + '/')
    print(result)
else:
    print('Oops!')

Код работает только если url кончается на“/”, как сделать так чтобы работал и без“/” ?
Например

 url="https://www.google.ru/?newwindow=1&q=python"

dimy44 · Ноя. 27, 2014 07:40:59

Код работает и без “/” в конце, только, видимо, выдает не то, что вам нужно на данный момент. Покажите, что вы хотите получить, на примере приведенного вами url.

Egor2010 · Ноя. 27, 2014 10:36:05

извините код немного до этого изменил

    if (url.find('://')!= -1):
        url_a, url_b=url.split('://')
        if url_b.lower().startswith('www.'):
            result=(url_a+'://', 'www.', url_b.split('/', 1)[0][4:]+'/', url_b.split('/', 1)[1])
        else:
            result=(url_a+'://', 'www.', url_b.split('/', 1)[0]+'/', url_b.split('/', 1)[1])
    else:
        url="http://"+url
        url_a, url_b=url.split('://')
        if url_b.lower().startswith('www.'):
            result=(url_a+'://', 'www.', url_b.split('/', 1)[0][4:]+'/', url_b.split('/', 1)[1])
        else:
            result=(url_a+'://', 'www.', url_b.split('/', 1)[0]+'/', url_b.split('/', 1)[1])
    url=result[0]+result[1]+result[2]+result[3]

все заработало!
Спасибо

Python-сообщество

Уведомления

#1 Ноя. 7, 2014 02:48:10

Google chrome url

#2 Ноя. 7, 2014 10:20:13

Google chrome url

#3 Ноя. 7, 2014 10:24:58

Google chrome url

#4 Ноя. 7, 2014 12:54:16

Google chrome url

#5 Ноя. 7, 2014 14:02:38

Google chrome url

#6 Ноя. 7, 2014 17:40:43

Google chrome url

#7 Ноя. 26, 2014 08:51:45

Google chrome url

#8 Ноя. 27, 2014 07:40:59

Google chrome url

#9 Ноя. 27, 2014 10:36:05

Google chrome url

Board footer