Python-сообщество

r4khic · Сен. 10, 2019 13:27:32

Добрый день ! Поставлена задача продумать реализацию (веб-приложения) универсального парсера для новостных порталов который парсит заголовок,дату,новость .То есть (в идеале конечно) допустим вводишь ссылку на новость и парсер работает.Понимаю пример очень экстремальный.

Хотелось бы услышать мнение по поводу реализации на примере такого веб-приложения.
тык

Интересно узнать как парсит этот сайт.
И в целом какие методы парсинга использовать чтобы он подходил для большинства новостных ресурсов бы вы посоветовали ?

Думал парсить с помощью DOM.Но отказался от этого метода.

P.S: Да,понимаю задача сложная.Но как говорится за сложной задачей кроется и огромный опыт и знания.Всем мира и добра

FishHook · Сен. 10, 2019 13:29:49

r4khic
допустим вводишь ссылку на новость и парсер работает

то есть вообще любую ссылку, на заранее неизвестный источник?

r4khic · Сен. 10, 2019 13:39:02

FishHook
то есть вообще любую ссылку, на заранее неизвестный источник?

Дa

Отредактировано r4khic (Сен. 10, 2019 14:03:53)

FishHook · Сен. 10, 2019 14:25:15

r4khic

Мы с вами на эту тему уже беседовали, но, кажется, вы меня не поняли. Давайте я попробую еще раз объяснить.
За прошедшие пару недель вы задавали вот такие вопросы:

1. TypeError: object of type ‘NoneType’ has no len()
2. Как лучше прописать условие if?
3. Как удалить лишний спарсенный элемент?
4. IndexError: список индексов вне диапазона python
5. При запуске программы ничего не происходит.

ну и так далее. Это в пределах двух недель.
Вам правда кажется, что вы осилите реализовать искуственный интеллект, который выделит из страницы семантику содержащихся данных? Если вы думаете, что способны решать такого рода задачи, ну что ж, молодец, вперед, не понятно только, чего вы хотите от форума? Вам надо руководить департаментом где-нибудь в гугле, а не на форуме детсадовские вопросы задавать. Я про себя уверенно могу сказать, что мне такая задача не по зубам, не смотря на то, что if-ы я использовать умею и даже IndexError не вызывает у меня оторопи. Странно вообще к этому вопросу возвращаться, такое ощущение что вы тут троллите. Вам же уже было говорено - читайте учебник, решайте задачи, чего вам было непонятно в прошлый раз?

Rodegast · Сен. 10, 2019 14:32:29

> универсального парсера для новостных порталов

Лет 7 назад я решал такую задачу и она довольно простая. У всех новостных порталов есть rss, а это обычных xml в котором уже всё распарсено.

С дураками и сектантами не спорю, истину не ищу.
Ели кому-то правда не нравится, то заранее извиняюсь.

r4khic · Сен. 10, 2019 14:57:44

FishHook
r4khicМы с вами на эту тему уже беседовали, но, кажется, вы меня не поняли. Давайте я попробую еще раз объяснить. За прошедшие пару недель вы задавали вот такие вопросы:

Я ни в коем случае не троллю.А на счет этих вопросов это была моя тупость и неопытность.А в на счет этой задачи,это задача будет моей мотивацией.

Python-сообщество

Уведомления

#1 Сен. 10, 2019 13:27:32

С чего начать реализации идеи для универсального парсера?

#2 Сен. 10, 2019 13:29:49

С чего начать реализации идеи для универсального парсера?

#3 Сен. 10, 2019 13:39:02

С чего начать реализации идеи для универсального парсера?

#4 Сен. 10, 2019 14:25:15

С чего начать реализации идеи для универсального парсера?

#5 Сен. 10, 2019 14:32:29

С чего начать реализации идеи для универсального парсера?

#6 Сен. 10, 2019 14:57:44

С чего начать реализации идеи для универсального парсера?

Board footer