Уведомления

Группа в Telegram: @pythonsu

#1 Сен. 10, 2019 13:27:32

r4khic
Зарегистрирован: 2019-07-23
Сообщения: 68
Репутация: +  0  -
Профиль   Отправить e-mail  

С чего начать реализации идеи для универсального парсера?

Добрый день ! Поставлена задача продумать реализацию (веб-приложения) универсального парсера для новостных порталов который парсит заголовок,дату,новость .То есть (в идеале конечно) допустим вводишь ссылку на новость и парсер работает.Понимаю пример очень экстремальный.

Хотелось бы услышать мнение по поводу реализации на примере такого веб-приложения.
тык

Интересно узнать как парсит этот сайт.
И в целом какие методы парсинга использовать чтобы он подходил для большинства новостных ресурсов бы вы посоветовали ?

Думал парсить с помощью DOM.Но отказался от этого метода.

P.S: Да,понимаю задача сложная.Но как говорится за сложной задачей кроется и огромный опыт и знания.Всем мира и добра

Офлайн

#2 Сен. 10, 2019 13:29:49

FishHook
От:
Зарегистрирован: 2011-01-08
Сообщения: 8312
Репутация: +  568  -
Профиль   Отправить e-mail  

С чего начать реализации идеи для универсального парсера?

r4khic
допустим вводишь ссылку на новость и парсер работает

то есть вообще любую ссылку, на заранее неизвестный источник?



Офлайн

#3 Сен. 10, 2019 13:39:02

r4khic
Зарегистрирован: 2019-07-23
Сообщения: 68
Репутация: +  0  -
Профиль   Отправить e-mail  

С чего начать реализации идеи для универсального парсера?

FishHook
то есть вообще любую ссылку, на заранее неизвестный источник?
Дa

Отредактировано r4khic (Сен. 10, 2019 14:03:53)

Офлайн

#4 Сен. 10, 2019 14:25:15

FishHook
От:
Зарегистрирован: 2011-01-08
Сообщения: 8312
Репутация: +  568  -
Профиль   Отправить e-mail  

С чего начать реализации идеи для универсального парсера?

r4khic

Мы с вами на эту тему уже беседовали, но, кажется, вы меня не поняли. Давайте я попробую еще раз объяснить.
За прошедшие пару недель вы задавали вот такие вопросы:

1. TypeError: object of type ‘NoneType’ has no len()
2. Как лучше прописать условие if?
3. Как удалить лишний спарсенный элемент?
4. IndexError: список индексов вне диапазона python
5. При запуске программы ничего не происходит.
ну и так далее. Это в пределах двух недель.
Вам правда кажется, что вы осилите реализовать искуственный интеллект, который выделит из страницы семантику содержащихся данных? Если вы думаете, что способны решать такого рода задачи, ну что ж, молодец, вперед, не понятно только, чего вы хотите от форума? Вам надо руководить департаментом где-нибудь в гугле, а не на форуме детсадовские вопросы задавать. Я про себя уверенно могу сказать, что мне такая задача не по зубам, не смотря на то, что if-ы я использовать умею и даже IndexError не вызывает у меня оторопи. Странно вообще к этому вопросу возвращаться, такое ощущение что вы тут троллите. Вам же уже было говорено - читайте учебник, решайте задачи, чего вам было непонятно в прошлый раз?



Офлайн

#5 Сен. 10, 2019 14:32:29

Rodegast
От: Пятигорск
Зарегистрирован: 2007-12-28
Сообщения: 2849
Репутация: +  186  -
Профиль   Отправить e-mail  

С чего начать реализации идеи для универсального парсера?

> универсального парсера для новостных порталов

Лет 7 назад я решал такую задачу и она довольно простая. У всех новостных порталов есть rss, а это обычных xml в котором уже всё распарсено.



С дураками и сектантами не спорю, истину не ищу.
Ели кому-то правда не нравится, то заранее извиняюсь.

Офлайн

#6 Сен. 10, 2019 14:57:44

r4khic
Зарегистрирован: 2019-07-23
Сообщения: 68
Репутация: +  0  -
Профиль   Отправить e-mail  

С чего начать реализации идеи для универсального парсера?

FishHook
r4khicМы с вами на эту тему уже беседовали, но, кажется, вы меня не поняли. Давайте я попробую еще раз объяснить. За прошедшие пару недель вы задавали вот такие вопросы:
Я ни в коем случае не троллю.А на счет этих вопросов это была моя тупость и неопытность.А в на счет этой задачи,это задача будет моей мотивацией.

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version