Найти - Пользователи
Полная версия: парсинг сайта https
Начало » Python для новичков » парсинг сайта https
1
WalinoR
Хочу вытянуть с сайта банка курсы валют.
Использую urllib.request. Интересующий меня фрагмент находится в теге <div class=“container”>, но его содержимое не выводится с помощью urllib.request:
<div class="content">
<div class="container"></div>
</div>

код python:
#!/usr/bin/env python3
import urllib.request
from bs4 import BeautifulSoup
BASE_URL = 'https://www.privat24.ua/#login'
def get_html(url):
    """Creates html file from url."""
    response = urllib.request.urlopen(url)
    return response.read()
def get_rate(html):
    soup = BeautifulSoup(html)
    print('soup = ', soup)
    content = soup.find('div', class_='exchange-rates')
    return content
def main():
    result = get_rate(get_html(BASE_URL))
    print(result)
if __name__ == '__main__':
    main()

Кто может объяснить, почему так происходит?
JOHN_16
WalinoR
Если все остальное вы делаете правильно, то предположу что содержимое подгружается за счет JS. Смотрите в браузере в инструментах разработчика наличие XHR запросов. Если так, то https тут не при чем.
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB