Форум сайта python.su
0
Пытаюсь спарсить выдачу гугла при помощи requests, но ничего не получается. Парсится исходный код вообще не тот, что в браузере. Только набор JS-скриптов.
Как переделать ссылку, или какие параметры дописать, чтобы получить тот исходный код, который я вижу в браузере.
import requests from bs4 import BeautifulSoup as bs r = requests.get('https://www.google.com/?gws_rd=ssl#newwindow=1&q=test') text = r.text soup = bs(text, 'html.parser') h3 = soup('h3') print(h3)
Отредактировано for_soul (Май 17, 2017 12:39:38)
Офлайн
0
Решил проблему, надо было просто добавить User-Agent и изменить ссылку
import requests from bs4 import BeautifulSoup as bs headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:45.0) Gecko/20100101 Firefox/45.0' } r = requests.get('https://www.google.com/search?q=test&oq=test&aqs=chrome.0.69i59j69i65j0l4.4212j0j7&sourceid=chrome&ie=UTF-8', headers = headers) text = r.text soup = bs(text, 'html.parser') h3 = soup('h3') clean_h3 = {}
Отредактировано for_soul (Май 17, 2017 18:58:27)
Офлайн