Форум сайта python.su
У меня есть парсер который парсит 10 ресурсов. Он работает от БД. То есть берет правила выдергивания контента из таблицы. После чтобы мне спарсить ссылку на новость, заголовок, дату, контент. Я создал для ссылок на новости, заголовков, дат, контента отдельные функции. И вот после полученные ссылки на новости, заголовки, даты, контент. Заносятся в уже в другую таблицу для новостей. Как мне сделать проверку новостей. То есть чтобы парсер не парсил повторяющиеся новости,и не заносил их в БД.
Есть для меня 2 оптимальных метода.
Метод1:Перед записью в БД проверить есть-ли такая
запись, если есть - прерывать цикл парсинга, ставлю
задержку, допустим 5 минут и после начинаю сначала.
Метод2:Использовать SELECT по ссылке на новость, если
такая уже есть переходить к след элементу через continue
массива.
Какой метод лучше реализовать ? Можно примером пожалуйста
Офлайн