Уведомления

Группа в Telegram: @pythonsu

#1 Июль 27, 2017 06:11:01

xeyalxx
Зарегистрирован: 2017-07-10
Сообщения: 7
Репутация: +  0  -
Профиль   Отправить e-mail  

Dick хуй

Хуй Dick

Отредактировано xeyalxx (Май 11, 2018 22:55:54)

Прикреплённый файлы:
attachment Screenshot_1.png (34,3 KБ)

Офлайн

#2 Июль 27, 2017 06:37:04

FishHook
От:
Зарегистрирован: 2011-01-08
Сообщения: 8312
Репутация: +  568  -
Профиль   Отправить e-mail  

Dick хуй

xeyalxx
В чём моя проблема?
Проблема в том, что вы думаете, будто структура страницы остается точно такой же, какой она была получена от сервера все время жизни страницы. Так было лет пятнадцать-двадцать назад. Сейчас клиентская часть активно использует ДжаваСкрипт, формируя разметку динамически. Это значит на практике, что получив страницу по запросу, вам надо выполнить кучу скриптов прикрепленных к этой странице, чтобы получить итоговую страницу. Вы этого не делаете, вы только получаете страницу. Таким топорным способом вы далеко не уедете и сможете парсить только очень простые сайты. Для парсинга есть специальные инструменты, нагуглить которые я вам предлагаю самостоятельно.



Офлайн

#3 Июль 27, 2017 22:39:32

evp24
Зарегистрирован: 2017-05-03
Сообщения: 96
Репутация: +  3  -
Профиль   Отправить e-mail  

Dick хуй

FishHook
топорным

может просто, как вариант, парсить RSS урл, а не страницу?
или искать “версию для печати”?

Отредактировано evp24 (Июль 27, 2017 22:39:54)

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version