DjangoBB LoFi version

Полная версия: Парсинг/скрапинг google выдачи при помощи requests

Начало » Python для новичков » Парсинг/скрапинг google выдачи при помощи requests

for_soul

Май 17, 2017 12:31:47

Пытаюсь спарсить выдачу гугла при помощи requests, но ничего не получается. Парсится исходный код вообще не тот, что в браузере. Только набор JS-скриптов.
Как переделать ссылку, или какие параметры дописать, чтобы получить тот исходный код, который я вижу в браузере.

 import requests
from bs4 import BeautifulSoup as bs
r = requests.get('https://www.google.com/?gws_rd=ssl#newwindow=1&q=test')
text = r.text
soup = bs(text, 'html.parser')
h3 = soup('h3')
print(h3)

for_soul

Май 17, 2017 18:58:12

Решил проблему, надо было просто добавить User-Agent и изменить ссылку

 import requests
from bs4 import BeautifulSoup as bs
headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:45.0) Gecko/20100101 Firefox/45.0'
}
r = requests.get('https://www.google.com/search?q=test&oq=test&aqs=chrome.0.69i59j69i65j0l4.4212j0j7&sourceid=chrome&ie=UTF-8', headers = headers)
text = r.text
soup = bs(text, 'html.parser')
h3 = soup('h3')
clean_h3 = {}