Форум сайта python.su
0
Доброго времени суток дорогие форумчане. Интересует вопрос по парсингу контента, а именно как исключить материал который мы уже скопировали? С какой стороны лучше подойти к этому вопросу? Как это лучше всего реализовать?
На практике должно выглядеть следующим образом : “1)Копируем контент 2)Ждем3)Проверяем появился ли новый.4 Если да то копируем” Или я ошибаюсь?
Офлайн
13
Если один контент = один URL, (ну например товар в инет магазе), то можно записывать юрл и потом, когда начинать парсить проверять есть ли этот юрл или нет, если есть то не ппарсить, если нету то парчсить и записывать.
Я щас так делаю, но думаю можно как то лучше, так что самому инетресно.
Хотя тут все зависит от того какие данные и куда складываете.
Офлайн
0
Я планирую на лету добавлять через rpc на wordPress сайт. Посоветовали еще по времени поста или новости смотреть , но я думаю сделать так что мониторинг идет на любое время от прошлого парсинга. Т.е время парсинга > дальше любое время от предыдущего парсинга. Х.з надо как то пробовать но два варианта есть это уже не плохо.
Офлайн
13
Офлайн
0
Ага. MySql. Ну я не планирую с ней непосредсвенно взаймодействовать. Т.е проверку только если визуально осуществлять( максимум).
Офлайн
13
Notan1310А зря, так бы выбрали что то, что однозначно идентифицирует ваш контент(юрл, дата, айди какйто и тд), и перед парсингом проверяли бы наличие этого в БД, а потом уже бы парсили.
Ну я не планирую с ней непосредсвенно взаймодействовать.
Офлайн
0
Да. Вы правы. Сделаю своеобразный хаб. Сейчас только понял что действительно намного проще управление станет и будет более красиво что ли.. Парсить например просто станицу последнюю с 10 новостями и дальше просто при анализе сравнивать по url.Если есть новая новость то уже ее публикуем. И из этого вытекает такой вопрос. Какую бд найболее по “гибко” можно использовать или же можно просто csv использовать Хранить я не буду эти данные на локальной машине поэтому сразу можно более старые записи подчищать. Они будут храниться просто в бд уже непосредсвенно на сервере.
Офлайн
13
Notan1310Вот этот вопрос меня тоже волнует. Хотелось бы услышать мнение более опытных товарищей.
Какую бд найболее по “гибко” можно использовать или же можно просто csv использовать
Офлайн
0
Alex_HHЯ имею ввиду для хаба(анализ пока еще на локальном компьютере, а дальше автоматом на сервер через rpc отправляется. Там бд wordPress MySql). В wordPress через админку не удобно. Я пока так вот решил для начала оформить. Извините, может не до конца понятно объясняю.
Про ваш случай, у вас то есть БД, зачем придумывать что то еще?
Офлайн
13
То есть ваш парсер парсит, а потом авторизируеться в админке заполняет поля и отправляет форму, которая добавляет даннные в БД?
Офлайн