Уведомления

Группа в Telegram: @pythonsu

#1 Авг. 23, 2019 14:48:57

r4khic
Зарегистрирован: 2019-07-23
Сообщения: 68
Репутация: +  0  -
Профиль   Отправить e-mail  

Как лучше реализовать проверку последних новостей парсеру?

У меня есть парсер который парсит 10 ресурсов. Он работает от БД. То есть берет правила выдергивания контента из таблицы. После чтобы мне спарсить ссылку на новость, заголовок, дату, контент. Я создал для ссылок на новости, заголовков, дат, контента отдельные функции. И вот после полученные ссылки на новости, заголовки, даты, контент. Заносятся в уже в другую таблицу для новостей. Как мне сделать проверку новостей. То есть чтобы парсер не парсил повторяющиеся новости,и не заносил их в БД.

Есть для меня 2 оптимальных метода.
Метод1:Перед записью в БД проверить есть-ли такая
запись, если есть - прерывать цикл парсинга, ставлю
задержку, допустим 5 минут и после начинаю сначала.
Метод2:Использовать SELECT по ссылке на новость, если
такая уже есть переходить к след элементу через continue
массива.

Какой метод лучше реализовать ? Можно примером пожалуйста

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version