Notan1310
Янв. 20, 2015 19:44:33
Доброго времени суток дорогие форумчане. Интересует вопрос по парсингу контента, а именно как исключить материал который мы уже скопировали? С какой стороны лучше подойти к этому вопросу? Как это лучше всего реализовать?
На практике должно выглядеть следующим образом : “1)Копируем контент 2)Ждем3)Проверяем появился ли новый.4 Если да то копируем” Или я ошибаюсь?
Alex_HH
Янв. 20, 2015 20:45:40
Если один контент = один URL, (ну например товар в инет магазе), то можно записывать юрл и потом, когда начинать парсить проверять есть ли этот юрл или нет, если есть то не ппарсить, если нету то парчсить и записывать.
Я щас так делаю, но думаю можно как то лучше, так что самому инетресно.
Хотя тут все зависит от того какие данные и куда складываете.
Notan1310
Янв. 20, 2015 21:02:42
Я планирую на лету добавлять через rpc на wordPress сайт. Посоветовали еще по времени поста или новости смотреть , но я думаю сделать так что мониторинг идет на любое время от прошлого парсинга. Т.е время парсинга > дальше любое время от предыдущего парсинга. Х.з надо как то пробовать но два варианта есть это уже не плохо.
Alex_HH
Янв. 20, 2015 21:05:57
А на вордпрессе там же базза данных, я правильно понимаю?
Notan1310
Янв. 20, 2015 21:09:33
Ага. MySql. Ну я не планирую с ней непосредсвенно взаймодействовать. Т.е проверку только если визуально осуществлять( максимум).
Alex_HH
Янв. 20, 2015 21:12:18
Notan1310
Ну я не планирую с ней непосредсвенно взаймодействовать.
А зря, так бы выбрали что то, что
однозначно идентифицирует ваш контент(юрл, дата, айди какйто и тд), и перед парсингом проверяли бы наличие этого в БД, а потом уже бы парсили.
Notan1310
Янв. 20, 2015 21:20:11
Да. Вы правы. Сделаю своеобразный хаб. Сейчас только понял что действительно намного проще управление станет и будет более красиво что ли.. Парсить например просто станицу последнюю с 10 новостями и дальше просто при анализе сравнивать по url.Если есть новая новость то уже ее публикуем. И из этого вытекает такой вопрос. Какую бд найболее по “гибко” можно использовать или же можно просто csv использовать Хранить я не буду эти данные на локальной машине поэтому сразу можно более старые записи подчищать. Они будут храниться просто в бд уже непосредсвенно на сервере.
Alex_HH
Янв. 20, 2015 21:24:02
Notan1310
Какую бд найболее по “гибко” можно использовать или же можно просто csv использовать
Вот этот вопрос меня тоже волнует. Хотелось бы услышать мнение более опытных товарищей.
Про ваш случай, у вас то есть БД, зачем придумывать что то еще? БД для этого и созданы, хранить в них данные и по необхиддимости брать.
Notan1310
Янв. 20, 2015 21:28:51
Alex_HH
Про ваш случай, у вас то есть БД, зачем придумывать что то еще?
Я имею ввиду для хаба(анализ пока еще на локальном компьютере, а дальше автоматом на сервер через rpc отправляется. Там бд wordPress MySql). В wordPress через админку не удобно. Я пока так вот решил для начала оформить. Извините, может не до конца понятно объясняю.
Alex_HH
Янв. 20, 2015 21:31:27
То есть ваш парсер парсит, а потом авторизируеться в админке заполняет поля и отправляет форму, которая добавляет даннные в БД?