Уведомления

Группа в Telegram: присоединиться | Jabber-конференция сообщества: pythonua@conference.jabber.ru

#1 Май 9, 2017 22:49:04

philips2009
Зарегистрирован: 2017-05-09
Сообщения: 17
Репутация: +  0  -
Профиль   Отправить e-mail  

Как парсить Google

Доброе времени суток! Подскажите пожалуйста начинающему програмисту
Как спарсить гугл выдачу и сохранить результаты в одном ексель фаиле (запрос, ссылка, заголовок, сниппет) и чтобы скрипт брал запросы из *.txt - фаила.
Я сохранил .html страницу на пк для тестирования.
Начал с написания кода сбора инфы (запрос, ссылка, заголовок, сниппет), но со сниппетом не получается

Помогите пожалуйста дописать скрипт!!!


КОД:
from bs4 import BeautifulSoup

html = open('****.html', encoding=“utf8”).read()
soup = BeautifulSoup(html, ‘html.parser’)
h3 = soup.find('div', class_ = ‘srg’).find_all('h3', class_ = ‘r’)
title = soup.find('title').text.split('-').strip()
text = soup.find_all('span', class_ = ‘st’)

for i in h3:
zagolovok = i.text
link = i.find('a')
links = link.get('href')
print(title + ‘;’ + zagolovok + ‘;’ + links)

Прикреплённый файлы:
attachment фото.jpg (274,6 KБ)

Офлайн

#2 Сен. 12, 2017 12:26:07

inoks
От: Russia
Зарегистрирован: 2012-12-11
Сообщения: 339
Репутация: +  35  -
Профиль   Адрес электронной почты  

Как парсить Google

В чем именно проблема?

Офлайн

#3 Ноя. 28, 2017 13:55:57

philips2009
Зарегистрирован: 2017-05-09
Сообщения: 17
Репутация: +  0  -
Профиль   Отправить e-mail  

Как парсить Google

inoks
В чем именно проблема?
Разобрался, спасибо

Офлайн

#4 Янв. 9, 2018 04:18:05

Thron
Зарегистрирован: 2018-01-09
Сообщения: 3
Репутация: +  0  -
Профиль   Отправить e-mail  

Как парсить Google

Ребята кто знает можно ли на питоне сделать такое расширение как adblock или adguard или они делаются только на JS
Также интересно как работают данные расширения, исходников не нашел. На GitHab лежит единственный README.md https://github.com/AdguardTeam/AdguardForWindows/blob/master/README.md

Знаю что лишь для фильтрации рекламы используется блокировка по URL, скрытие с помощью CSS и фильтрация HTML-кода. А можно ли сделать так чтобы баннер заменялся другим баннером. То есть создать такое расширение которое добавляло бы пользовательский класс стиля

 background-image: url('http://example.com/banner.img');
 cursor: pointer;
а после еще и добавить в html
 onclick='window.open("http://ya.ru");'
как бы перенаправлять людей на партнерскую ссылку. Кто знает возможно ли это и есть ли смысл в обще думать об этом?

Отредактировано Thron (Янв. 9, 2018 04:32:29)

Офлайн

#5 Янв. 9, 2018 04:37:50

py.user.next
От:
Зарегистрирован: 2010-04-29
Сообщения: 5645
Репутация: +  514  -
Профиль   Отправить e-mail  

Как парсить Google

Thron
Также интересно как работают данные расширения, исходников не нашел.
Скачиваешь расширение и просто распаковываешь его как архив. Там исходники.



Офлайн

#6 Янв. 9, 2018 05:21:48

Thron
Зарегистрирован: 2018-01-09
Сообщения: 3
Репутация: +  0  -
Профиль   Отправить e-mail  

Как парсить Google

py.user.next
Так кроме ихнего .exe на сайте и расширения в хром магазине, нету
Когда в хром сторе захожу просто пишет “добавлено в хром”
Или это нужно искать как то по особенному?

Офлайн

#7 Янв. 9, 2018 05:25:32

Thron
Зарегистрирован: 2018-01-09
Сообщения: 3
Репутация: +  0  -
Профиль   Отправить e-mail  

Как парсить Google

py.user.next
Спасибо нашел расширение.. Оно вроде как в формате .crx

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version