Уведомления

Группа в Telegram: @pythonsu

#1 Янв. 20, 2015 19:44:33

Notan1310
Зарегистрирован: 2014-09-14
Сообщения: 98
Репутация: +  0  -
Профиль   Отправить e-mail  

Исключение повторного парсинга контента

Доброго времени суток дорогие форумчане. Интересует вопрос по парсингу контента, а именно как исключить материал который мы уже скопировали? С какой стороны лучше подойти к этому вопросу? Как это лучше всего реализовать?
На практике должно выглядеть следующим образом : “1)Копируем контент 2)Ждем3)Проверяем появился ли новый.4 Если да то копируем” Или я ошибаюсь?

Офлайн

#2 Янв. 20, 2015 20:45:40

Alex_HH
Зарегистрирован: 2014-03-03
Сообщения: 91
Репутация: +  13  -
Профиль   Отправить e-mail  

Исключение повторного парсинга контента

Если один контент = один URL, (ну например товар в инет магазе), то можно записывать юрл и потом, когда начинать парсить проверять есть ли этот юрл или нет, если есть то не ппарсить, если нету то парчсить и записывать.
Я щас так делаю, но думаю можно как то лучше, так что самому инетресно.
Хотя тут все зависит от того какие данные и куда складываете.



————–
Зимой и летом heavy metall.
Технический прогресс - это падение вверх. Alex_HH (с)
Эстетизация жестокости есть квинтэссенция смысла человеческого существования. Alex_HH (с)
После бога идет не пустота, там метаданные. Alex_HH (с)

Офлайн

#3 Янв. 20, 2015 21:02:42

Notan1310
Зарегистрирован: 2014-09-14
Сообщения: 98
Репутация: +  0  -
Профиль   Отправить e-mail  

Исключение повторного парсинга контента

Я планирую на лету добавлять через rpc на wordPress сайт. Посоветовали еще по времени поста или новости смотреть , но я думаю сделать так что мониторинг идет на любое время от прошлого парсинга. Т.е время парсинга > дальше любое время от предыдущего парсинга. Х.з надо как то пробовать но два варианта есть это уже не плохо.

Офлайн

#4 Янв. 20, 2015 21:05:57

Alex_HH
Зарегистрирован: 2014-03-03
Сообщения: 91
Репутация: +  13  -
Профиль   Отправить e-mail  

Исключение повторного парсинга контента

А на вордпрессе там же базза данных, я правильно понимаю?



————–
Зимой и летом heavy metall.
Технический прогресс - это падение вверх. Alex_HH (с)
Эстетизация жестокости есть квинтэссенция смысла человеческого существования. Alex_HH (с)
После бога идет не пустота, там метаданные. Alex_HH (с)

Офлайн

#5 Янв. 20, 2015 21:09:33

Notan1310
Зарегистрирован: 2014-09-14
Сообщения: 98
Репутация: +  0  -
Профиль   Отправить e-mail  

Исключение повторного парсинга контента

Ага. MySql. Ну я не планирую с ней непосредсвенно взаймодействовать. Т.е проверку только если визуально осуществлять( максимум).

Офлайн

#6 Янв. 20, 2015 21:12:18

Alex_HH
Зарегистрирован: 2014-03-03
Сообщения: 91
Репутация: +  13  -
Профиль   Отправить e-mail  

Исключение повторного парсинга контента

Notan1310
Ну я не планирую с ней непосредсвенно взаймодействовать.
А зря, так бы выбрали что то, что однозначно идентифицирует ваш контент(юрл, дата, айди какйто и тд), и перед парсингом проверяли бы наличие этого в БД, а потом уже бы парсили.



————–
Зимой и летом heavy metall.
Технический прогресс - это падение вверх. Alex_HH (с)
Эстетизация жестокости есть квинтэссенция смысла человеческого существования. Alex_HH (с)
После бога идет не пустота, там метаданные. Alex_HH (с)

Офлайн

#7 Янв. 20, 2015 21:20:11

Notan1310
Зарегистрирован: 2014-09-14
Сообщения: 98
Репутация: +  0  -
Профиль   Отправить e-mail  

Исключение повторного парсинга контента

Да. Вы правы. Сделаю своеобразный хаб. Сейчас только понял что действительно намного проще управление станет и будет более красиво что ли.. Парсить например просто станицу последнюю с 10 новостями и дальше просто при анализе сравнивать по url.Если есть новая новость то уже ее публикуем. И из этого вытекает такой вопрос. Какую бд найболее по “гибко” можно использовать или же можно просто csv использовать Хранить я не буду эти данные на локальной машине поэтому сразу можно более старые записи подчищать. Они будут храниться просто в бд уже непосредсвенно на сервере.

Офлайн

#8 Янв. 20, 2015 21:24:02

Alex_HH
Зарегистрирован: 2014-03-03
Сообщения: 91
Репутация: +  13  -
Профиль   Отправить e-mail  

Исключение повторного парсинга контента

Notan1310
Какую бд найболее по “гибко” можно использовать или же можно просто csv использовать
Вот этот вопрос меня тоже волнует. Хотелось бы услышать мнение более опытных товарищей.
Про ваш случай, у вас то есть БД, зачем придумывать что то еще? БД для этого и созданы, хранить в них данные и по необхиддимости брать.



————–
Зимой и летом heavy metall.
Технический прогресс - это падение вверх. Alex_HH (с)
Эстетизация жестокости есть квинтэссенция смысла человеческого существования. Alex_HH (с)
После бога идет не пустота, там метаданные. Alex_HH (с)

Офлайн

#9 Янв. 20, 2015 21:28:51

Notan1310
Зарегистрирован: 2014-09-14
Сообщения: 98
Репутация: +  0  -
Профиль   Отправить e-mail  

Исключение повторного парсинга контента

Alex_HH
Про ваш случай, у вас то есть БД, зачем придумывать что то еще?
Я имею ввиду для хаба(анализ пока еще на локальном компьютере, а дальше автоматом на сервер через rpc отправляется. Там бд wordPress MySql). В wordPress через админку не удобно. Я пока так вот решил для начала оформить. Извините, может не до конца понятно объясняю.

Офлайн

#10 Янв. 20, 2015 21:31:27

Alex_HH
Зарегистрирован: 2014-03-03
Сообщения: 91
Репутация: +  13  -
Профиль   Отправить e-mail  

Исключение повторного парсинга контента

То есть ваш парсер парсит, а потом авторизируеться в админке заполняет поля и отправляет форму, которая добавляет даннные в БД?



————–
Зимой и летом heavy metall.
Технический прогресс - это падение вверх. Alex_HH (с)
Эстетизация жестокости есть квинтэссенция смысла человеческого существования. Alex_HH (с)
После бога идет не пустота, там метаданные. Alex_HH (с)

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version