Уведомления

Группа в Telegram: @pythonsu

#1 Май 17, 2017 12:31:47

for_soul
Зарегистрирован: 2017-01-25
Сообщения: 13
Репутация: +  0  -
Профиль   Отправить e-mail  

Парсинг/скрапинг google выдачи при помощи requests

Пытаюсь спарсить выдачу гугла при помощи requests, но ничего не получается. Парсится исходный код вообще не тот, что в браузере. Только набор JS-скриптов.
Как переделать ссылку, или какие параметры дописать, чтобы получить тот исходный код, который я вижу в браузере.

 import requests
from bs4 import BeautifulSoup as bs
r = requests.get('https://www.google.com/?gws_rd=ssl#newwindow=1&q=test')
text = r.text
soup = bs(text, 'html.parser')
h3 = soup('h3')
print(h3)

Отредактировано for_soul (Май 17, 2017 12:39:38)

Офлайн

#2 Май 17, 2017 18:58:12

for_soul
Зарегистрирован: 2017-01-25
Сообщения: 13
Репутация: +  0  -
Профиль   Отправить e-mail  

Парсинг/скрапинг google выдачи при помощи requests

Решил проблему, надо было просто добавить User-Agent и изменить ссылку

 import requests
from bs4 import BeautifulSoup as bs
headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:45.0) Gecko/20100101 Firefox/45.0'
}
r = requests.get('https://www.google.com/search?q=test&oq=test&aqs=chrome.0.69i59j69i65j0l4.4212j0j7&sourceid=chrome&ie=UTF-8', headers = headers)
text = r.text
soup = bs(text, 'html.parser')
h3 = soup('h3')
clean_h3 = {}

Отредактировано for_soul (Май 17, 2017 18:58:27)

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version