Форум сайта python.su
0
Здравствуйте. Только начал изучать Python.
В книге Кори Альтхоффа есть пример парсера контента новостей с сайта Google.ru.
import urllib.request from bs4 import BeautifulSoup class Scraper: def __init__(self, site): self.site = site def scrape(self): r = urllib.request\ .urlopen(self.site) html = r.read() parser = "html.parser" sp = BeautifulSoup(html, parser) for tag in sp.find_all("a"): url = tag.get("href") if url is None: continue if "html" in url: print("\n" + url) news = "https://news.google.ru/" Scraper(news).scrape()
Офлайн
16
html = r.read() print(html)
Офлайн
0
Спасибо, за ответ. Сделал как Вы посоветовали. В результате вывод более 3000 строк. У меня подозрение, что на гугле нет искомых строк, все выполнено по другой технологии. Но это мнение новичка.
Офлайн
4
YanusМожно открыть "https://news.google.ru/" в браузере и там посмотреть код страницы. Удобнее листать будет.
В результате вывод более 3000 строк.
YanusДа, там всё в javascript завёрнуто, нормального html нет. Видимо, когда писали книгу, страница выглядела иначе.
У меня подозрение, что на гугле нет искомых строк
Офлайн