- По запросу “ххх” парсим выдачу Гугл
- Тащим все ссылки
- Переходим по этим ссылкам и парсим Заголовки сайтов.
Вот завис на третьем шаге, вот код:
import requests, re from bs4 import BeautifulSoup url = 'http://www.google.com/search' keyword = input("vvodim zapros: ") payload = {'q': keyword, 'start': '0', 'num':'20'} my_headers = {'User-agent': 'Mozilla/11.0'} r = requests.get(url, params=payload, headers=my_headers) soup = BeautifulSoup(r.text, 'html.parser') h3tags = soup.find_all('h3', class_='r') for h3 in h3tags: try: massiv = [] massiv.append(re.search('url\?q=(.+?)\&sa', h3.a['href']).group(1)) print(massiv) except: continue
1. Отсеить дубли страниц, чтобы не было вот такого:
'хттп
/kaban.tv:8080/']'хттп
/ kaban.tv:8080/rossiya-1-online''хттп
/kaban.tv:8080/tnt-online'2. Взять каждую ссылку и перейти по ней.
В этом и заключается вопрос: “Как мне убрать дубли страниц и как вытащить из списка всех ссылок ссылку1, ссылку2 и так далее?”
Буду очень благодарен за помощь!