Найти - Пользователи
Полная версия: Исключение повторного парсинга контента
Начало » Python для новичков » Исключение повторного парсинга контента
1 2
Notan1310
Доброго времени суток дорогие форумчане. Интересует вопрос по парсингу контента, а именно как исключить материал который мы уже скопировали? С какой стороны лучше подойти к этому вопросу? Как это лучше всего реализовать?
На практике должно выглядеть следующим образом : “1)Копируем контент 2)Ждем3)Проверяем появился ли новый.4 Если да то копируем” Или я ошибаюсь?
Alex_HH
Если один контент = один URL, (ну например товар в инет магазе), то можно записывать юрл и потом, когда начинать парсить проверять есть ли этот юрл или нет, если есть то не ппарсить, если нету то парчсить и записывать.
Я щас так делаю, но думаю можно как то лучше, так что самому инетресно.
Хотя тут все зависит от того какие данные и куда складываете.
Notan1310
Я планирую на лету добавлять через rpc на wordPress сайт. Посоветовали еще по времени поста или новости смотреть , но я думаю сделать так что мониторинг идет на любое время от прошлого парсинга. Т.е время парсинга > дальше любое время от предыдущего парсинга. Х.з надо как то пробовать но два варианта есть это уже не плохо.
Alex_HH
А на вордпрессе там же базза данных, я правильно понимаю?
Notan1310
Ага. MySql. Ну я не планирую с ней непосредсвенно взаймодействовать. Т.е проверку только если визуально осуществлять( максимум).
Alex_HH
Notan1310
Ну я не планирую с ней непосредсвенно взаймодействовать.
А зря, так бы выбрали что то, что однозначно идентифицирует ваш контент(юрл, дата, айди какйто и тд), и перед парсингом проверяли бы наличие этого в БД, а потом уже бы парсили.
Notan1310
Да. Вы правы. Сделаю своеобразный хаб. Сейчас только понял что действительно намного проще управление станет и будет более красиво что ли.. Парсить например просто станицу последнюю с 10 новостями и дальше просто при анализе сравнивать по url.Если есть новая новость то уже ее публикуем. И из этого вытекает такой вопрос. Какую бд найболее по “гибко” можно использовать или же можно просто csv использовать Хранить я не буду эти данные на локальной машине поэтому сразу можно более старые записи подчищать. Они будут храниться просто в бд уже непосредсвенно на сервере.
Alex_HH
Notan1310
Какую бд найболее по “гибко” можно использовать или же можно просто csv использовать
Вот этот вопрос меня тоже волнует. Хотелось бы услышать мнение более опытных товарищей.
Про ваш случай, у вас то есть БД, зачем придумывать что то еще? БД для этого и созданы, хранить в них данные и по необхиддимости брать.
Notan1310
Alex_HH
Про ваш случай, у вас то есть БД, зачем придумывать что то еще?
Я имею ввиду для хаба(анализ пока еще на локальном компьютере, а дальше автоматом на сервер через rpc отправляется. Там бд wordPress MySql). В wordPress через админку не удобно. Я пока так вот решил для начала оформить. Извините, может не до конца понятно объясняю.
Alex_HH
То есть ваш парсер парсит, а потом авторизируеться в админке заполняет поля и отправляет форму, которая добавляет даннные в БД?
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB