DjangoBB LoFi version

Начало » Python для новичков » парсинг сайта https

WalinoR

Окт. 26, 2015 22:04:17

Хочу вытянуть с сайта банка курсы валют.
Использую urllib.request. Интересующий меня фрагмент находится в теге <div class=“container”>, но его содержимое не выводится с помощью urllib.request:

<div class="content">
<div class="container"></div>
</div>

код python:

#!/usr/bin/env python3
import urllib.request
from bs4 import BeautifulSoup
BASE_URL = 'https://www.privat24.ua/#login'
def get_html(url):
    """Creates html file from url."""
    response = urllib.request.urlopen(url)
    return response.read()
def get_rate(html):
    soup = BeautifulSoup(html)
    print('soup = ', soup)
    content = soup.find('div', class_='exchange-rates')
    return content
def main():
    result = get_rate(get_html(BASE_URL))
    print(result)
if __name__ == '__main__':
    main()

Кто может объяснить, почему так происходит?

JOHN_16

Окт. 26, 2015 22:39:11

WalinoR
Если все остальное вы делаете правильно, то предположу что содержимое подгружается за счет JS. Смотрите в браузере в инструментах разработчика наличие XHR запросов. Если так, то https тут не при чем.