Найти - Пользователи
Полная версия: парсинг тега div
Начало » Python для экспертов » парсинг тега div
1
Remembo
Перестал работать парсинг веб-страницы на этой строчке:
soup.find('div', class_='….').get_text()
Пишет: AttributeError: ‘NoneType’ object has no attribute ‘get_text’
Весь файл во вложении.
На этой странице https://www.google.com/finance/quote/PLTR:NASDAQ такая же история, ругается на:
soup.find('c-wiz', class_='zQTmif SSPGKf u5wqUe').get_text()
В общем как цену спарсить, на этих двух страничках, помогите))

py.user.next
Remembo
На этой странице … такая же история
Открывается у тебя страница в браузере?

Remembo
В общем как цену спарсить, на этих двух страничках
Вообще, у тебя там слишком много деталей указано. Страницы могут меняться, и из-за мелких изменений это всё может сломаться. Поэтому надо опираться на такие элементы страницы, изменение которых маловероятно.
Remembo
py.user.next
Открывается у тебя страница в браузере?
да, чрз впн

В этом и вопрос, там постоянно что-то меняется и как в данный момент спарсить не понятно.
py.user.next
Remembo
да, чрз впн
А скрипт у тебя доступ к странице имеет?

Remembo
В этом и вопрос, там постоянно что-то меняется
Вот эти классы
zQTmif SSPGKf u5wqUe
там на месте.

Разберись сначала с тем, что там есть и не изменилось. Когда разберёшся, тогда можно искать элементы на странице, которые с высокой вероятностью останутся инвариантными при любых редактированиях страницы.

Например, есть коробка, в которой содержится вся информация о валюте. Может ли она исчезнуть? Ну скорее всего, не может, так как коробка (основной контейнер) должна быть у всего. Значит, можно на эту коробку опираться. Дальше ты находишь эту коробку, не опираясь на её классы, потому что они могут измениться для создания большей красивости. Когда коробку находишь (по соседним тегам, например, или по гарантированному содержимому в ней), отсекаешь от коробки всё лишнее (всё до неё и всё после неё) и уже работаешь только с этой коробкой и ищешь уже в ней тоже по такому же принципу - что будет неизменным при любых изменениях. И так постепенно, шаг за шагом (через декомпозицию алгоритма), ты доходишь до самой внутренности, до ядрышка в орешке.

Тогда что бы админ ни делал, какие бы внешности у страницы ни менял, твой скрипт будет переживать эти изменения и спокойно работать. Классы поменяются сто раз, внешний вид поменяется, реклама добавится, баннеры там и всё такое, а твой скрипт прыжками всегда будет одинаково доходить до центральной информации.
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB