DjangoBB LoFi version

Полная версия: Получить исходный код страницы

Начало » Network » Получить исходный код страницы

Vigi

Март 5, 2018 08:56:00

Хаюшки всем!

Проблема в том, что не могу получить реальный код страницы, для дальнейшей работы с ней.

через Selenium:

 from selenium import webdriver
driver = webdriver.Chrome()
driver.get('http://ffsim.ru/forum/viewforum.php?f=65')
html = driver.page_source
print(html)

через requests:

 import requests
def get_html(url, e):
    r = requests.get(url)
    r.encoding = e
    return r.text
print(get_html('http://ffsim.ru/forum/viewforum.php?f=65', 'utf-8'))

но получаю, что в первом случае, что и во втором вот-что:

 <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html>
<head>
  <META HTTP-EQUIV="CACHE-CONTROL" CONTENT="NO-CACHE">
  <META HTTP-EQUIV="PRAGMA" CONTENT="NO-CACHE">
  <META HTTP-EQUIV="REFRESH" CONTENT="1;">
  <title>Browser Check Page</title>
</head>
<body>
  <script type="text/javascript">
    document.cookie = 'CHECK=0; path=/';
  </script>
</body>
</html>

что не соответствует действительности.
В какую сторону смотреть, что делать ?

JOHN_16

Март 5, 2018 12:48:09

Отключи JS в браузере у видишь что страница не сможет открыться. Ну и по ответу сервера видно, что стоит проверка на то что ты это браузер (за счет какой то проверки на JS). Копать нужно в эту сторону

DamMercul

Авг. 27, 2018 22:22:04

JOHN_16
Отключи JS в браузере у видишь что страница не сможет открыться. Ну и по ответу сервера видно, что стоит проверка на то что ты это браузер (за счет какой то проверки на JS). Копать нужно в эту сторону

Используй модуль requests, там есть куки, тем более тебе нужен свой UserAgent, это определяет тебя как браузер