Python-сообщество

Murad · Май 10, 2017 13:59:51

Нужно вывести все ссылки сайта, но только те ссылки которые не имеют .jpg, #, и .img
как это фильтр организовать? я знаю что - то надо сделать с href, чтобы оно было только желаемые ссылки, но вот как не знаю, помогите пожалуйста

 def get_links(base_url):
    links = []
    source_cod = requests.get(base_url)
    text = source_cod.text
    soup = BeautifulSoup(text)
    for link in soup.findAll('a'):
        href = link.get('href')
        if href is not None:
            url = parse.urljoin(base_url, href)
            if url not in links:
                links.append(url)
    return links

Отредактировано Murad (Май 10, 2017 14:47:42)

py.user.next · Май 10, 2017 23:47:51

http://python.su/forum/post/178983/

Python-сообщество

Уведомления

#1 Май 10, 2017 13:59:51

парсинг

#2 Май 10, 2017 23:47:51

парсинг

Board footer