Форум сайта python.su
Доброго времени суток!
Задача следующая: изъятие инфы из определенной веб страницы
Пользуюсь библиотекой requests.
Насколько я понял, эта библиотека собирает не всю инфу и заставить get подождать, пока страница прогрузится полностью нельзя. Но вроде как можно обращаться напрямую к какому-то конкретному подгружаемому элементу. В моём случае наименование элемента мне известно формата xhr
Прошу подсказать, как именно к нему обращаться
Так же прошу не рекламировать selenium в комментариях… ну только если через requests эту процедуру нельзя выполнить вообще никакими способами, включая жертвоприношения.
Спасибо за уделённое время.
Офлайн
Насколько я понял, эта библиотека собирает не всю инфу и заставить get подождать, пока страница прогрузится полностью нельзя.
Tempсейчас каждый второй сайт построен на реакте, забудьте про то, что вы можете парсить интернет без какого-нибудь полноценного js движка, прошли эти времена уже давно
Так же прошу не рекламировать selenium в комментариях
Офлайн
FishHookПонятно, спасибо за прямолинейный ответ.
Офлайн
Temp
Понятно, спасибо за прямолинейный ответ.
Посоветуй пожалуйста js движок попроще, мне лишь нужно скомуниздить с сайта пару кусочков текста.
Офлайн
с js работать могут selenium, requests-html, pypeteer
и, чтобы два раза не вставать, судя по скрину, вы не туда смотрите в devtools. для парсинга страницы нужно смотреть вкладку Элементы, а не Сеть.
Отредактировано robisho (Май 24, 2022 17:54:49)
Офлайн
Temp
В моём случае наименование элемента мне известно формата xhr
TempXHR работает по протоколу HTTP. Представь, что это такой микробраузер в браузере. Соответственно, тебе нужно получить адрес ресурса и набор заголовков HTTP, а потом сформировать такой же запрос. Обычно это всё можно взять из исходного кода страницы и просмотра вкладки самого запроса через встроенные “инструменты разработчика” в браузере. В исходном коде страницы можно узнать, как составляется адрес ресурса. А в “инструментах разработчика” можно узнать, какие HTTP-заголовки посылаются при обращению к этому ресурсу.
Прошу подсказать, как именно к нему обращаться
Отредактировано py.user.next (Май 25, 2022 06:04:38)
Офлайн
TempНевозможно. Если хоть что-то подгружается на странице через js фиг ты че этим модулем спрасишь
Доброго времени суток!Задача следующая: изъятие инфы из определенной веб страницыПользуюсь библиотекой requests.Насколько я понял, эта библиотека собирает не всю инфу и заставить get подождать, пока страница прогрузится полностью нельзя. Но вроде как можно обращаться напрямую к какому-то конкретному подгружаемому элементу. В моём случае наименование элемента мне известно формата xhrПрошу подсказать, как именно к нему обращатьсяТак же прошу не рекламировать selenium в комментариях… ну только если через requests эту процедуру нельзя выполнить вообще никакими способами, включая жертвоприношения.Спасибо за уделённое время.
# Life loop while alive: if (fun > boredom) and money: pass_day(fun, boredom, money) continue else: break
Офлайн
py.user.next
XHR работает по протоколу HTTP. Представь, что это такой микробраузер в браузере. Соответственно, тебе нужно получить адрес ресурса и набор заголовков HTTP, а потом сформировать такой же запрос. Обычно это всё можно взять из исходного кода страницы и просмотра вкладки самого запроса через встроенные “инструменты разработчика” в браузере. В исходном коде страницы можно узнать, как составляется адрес ресурса. А в “инструментах разработчика” можно узнать, какие HTTP-заголовки посылаются при обращению к этому ресурсу.
Офлайн