Найти - Пользователи
Полная версия: Помогите разобраться с примером из книги Кори Альтхоффа
Начало » Python для новичков » Помогите разобраться с примером из книги Кори Альтхоффа
1
Yanus
Здравствуйте. Только начал изучать Python.
В книге Кори Альтхоффа есть пример парсера контента новостей с сайта Google.ru.

 import urllib.request
from bs4 import BeautifulSoup
class Scraper:
    def __init__(self, site):
        self.site = site
    def scrape(self):
        r = urllib.request\
            .urlopen(self.site)
        html = r.read()
        parser = "html.parser"
        sp = BeautifulSoup(html,
                           parser)
        for tag in sp.find_all("a"):
            url = tag.get("href")
            if url is None:
                continue
            if "html" in url:
                print("\n" + url)
news = "https://news.google.ru/"
Scraper(news).scrape()

После выполнения программа ни чего не выдает. Но если “news.google.ru” поменять на “news.yandex.ru” то все работает. Помогите разобраться в чем проблема. Спасибо.
VadimK
 html = r.read()
print(html)
и посмотреть что вообще попадает со страницы в данные.
Yanus
Спасибо, за ответ. Сделал как Вы посоветовали. В результате вывод более 3000 строк. У меня подозрение, что на гугле нет искомых строк, все выполнено по другой технологии. Но это мнение новичка.
uf4JaiD5
Yanus
В результате вывод более 3000 строк.
Можно открыть "https://news.google.ru/" в браузере и там посмотреть код страницы. Удобнее листать будет.

Yanus
У меня подозрение, что на гугле нет искомых строк
Да, там всё в javascript завёрнуто, нормального html нет. Видимо, когда писали книгу, страница выглядела иначе.
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB