Форум сайта python.su
0
Добрый день ! Поставлена задача продумать реализацию (веб-приложения) универсального парсера для новостных порталов который парсит заголовок,дату,новость .То есть (в идеале конечно) допустим вводишь ссылку на новость и парсер работает.Понимаю пример очень экстремальный.
Хотелось бы услышать мнение по поводу реализации на примере такого веб-приложения.
тык
Интересно узнать как парсит этот сайт.
И в целом какие методы парсинга использовать чтобы он подходил для большинства новостных ресурсов бы вы посоветовали ?
Думал парсить с помощью DOM.Но отказался от этого метода.
P.S: Да,понимаю задача сложная.Но как говорится за сложной задачей кроется и огромный опыт и знания.Всем мира и добра 
Офлайн
568
r4khic
допустим вводишь ссылку на новость и парсер работает
Офлайн
0
FishHookДa
то есть вообще любую ссылку, на заранее неизвестный источник?
Отредактировано r4khic (Сен. 10, 2019 14:03:53)
Офлайн
568
r4khic
Мы с вами на эту тему уже беседовали, но, кажется, вы меня не поняли. Давайте я попробую еще раз объяснить.
За прошедшие пару недель вы задавали вот такие вопросы:
1. TypeError: object of type ‘NoneType’ has no len()ну и так далее. Это в пределах двух недель.
2. Как лучше прописать условие if?
3. Как удалить лишний спарсенный элемент?
4. IndexError: список индексов вне диапазона python
5. При запуске программы ничего не происходит.
Офлайн
186
> универсального парсера для новостных порталов
Лет 7 назад я решал такую задачу и она довольно простая. У всех новостных порталов есть rss, а это обычных xml в котором уже всё распарсено.
Офлайн
0
FishHookЯ ни в коем случае не троллю.А на счет этих вопросов это была моя тупость и неопытность.А в на счет этой задачи,это задача будет моей мотивацией.
r4khicМы с вами на эту тему уже беседовали, но, кажется, вы меня не поняли. Давайте я попробую еще раз объяснить. За прошедшие пару недель вы задавали вот такие вопросы:
Офлайн