Найти - Пользователи
Полная версия: Как парсить Google
Начало » Web » Как парсить Google
1
philips2009
Доброе времени суток! Подскажите пожалуйста начинающему програмисту
Как спарсить гугл выдачу и сохранить результаты в одном ексель фаиле (запрос, ссылка, заголовок, сниппет) и чтобы скрипт брал запросы из *.txt - фаила.
Я сохранил .html страницу на пк для тестирования.
Начал с написания кода сбора инфы (запрос, ссылка, заголовок, сниппет), но со сниппетом не получается

Помогите пожалуйста дописать скрипт!!!


КОД:
from bs4 import BeautifulSoup

html = open('****.html', encoding=“utf8”).read()
soup = BeautifulSoup(html, ‘html.parser’)
h3 = soup.find('div', class_ = ‘srg’).find_all('h3', class_ = ‘r’)
title = soup.find('title').text.split('-').strip()
text = soup.find_all('span', class_ = ‘st’)

for i in h3:
zagolovok = i.text
link = i.find('a')
links = link.get('href')
print(title + ‘;’ + zagolovok + ‘;’ + links)
inoks
В чем именно проблема?
philips2009
inoks
В чем именно проблема?
Разобрался, спасибо
Thron
Ребята кто знает можно ли на питоне сделать такое расширение как http://adblockplus.org/ или http://adguard.ideaprog.download/ или они делаются только на JS
Также интересно как работают данные расширения, исходников не нашел. На GitHab лежит единственный README.md

Знаю что лишь для фильтрации рекламы используется блокировка по URL, скрытие с помощью CSS и фильтрация HTML-кода. А можно ли сделать так чтобы баннер заменялся другим баннером. То есть создать такое расширение которое добавляло бы пользовательский класс стиля
 background-image: url('http://example.com/banner.img');
 cursor: pointer;
а после еще и добавить в html
 onclick='window.open("http://ya.ru");'
как бы перенаправлять людей на партнерскую ссылку. Кто знает возможно ли это и есть ли смысл в обще думать об этом?
py.user.next
Thron
Также интересно как работают данные расширения, исходников не нашел.
Скачиваешь расширение и просто распаковываешь его как архив. Там исходники.
Thron
py.user.next
Так кроме ихнего .exe на сайте и расширения в хром магазине, нету
Когда в хром сторе захожу просто пишет “добавлено в хром”
Или это нужно искать как то по особенному?
Thron
py.user.next
Спасибо нашел расширение.. Оно вроде как в формате .crx
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB