Уведомления

Группа в Telegram: @pythonsu

#1 Март 20, 2019 20:05:26

philips2009
Зарегистрирован: 2017-05-09
Сообщения: 45
Репутация: +  0  -
Профиль   Отправить e-mail  

Проверка инфы из MySQL

Здравствуйте дорогие форумчане!
Создал скрипт для паркинга информации с сайта объявлений с последующей записью в бд MySQL на локальном ПК. Прицип таков:
1. загрузка всех записанных ссылок объявлений из бд MySQL в питоновский список (checked_urls)
2. загрузка всех уникальных ссылок объявлений с сайта в питоновский список (unchecked_urls)

if url not in checked_urls:
unchecked_urls.append(url)
3. сам парсинг инфы с каждой ссылки (объявления) из unchecked_urls и запись в бд.

По ходу создания заметил что есть случаи одна и та же ссылка но информация другая или кое что добавлено или изменено, то есть пользователь не создал новое объявление а изменил старое. Появилась необходимость проверки состава записанного объявления из бд с тем что на сайте. В этом у меня проблема, помогите пожалуйста.
Заранее благодарю.

Отредактировано philips2009 (Март 20, 2019 20:06:22)

Офлайн

#2 Март 21, 2019 00:28:30

py.user.next
От:
Зарегистрирован: 2010-04-29
Сообщения: 9727
Репутация: +  843  -
Профиль   Отправить e-mail  

Проверка инфы из MySQL

philips2009
Появилась необходимость проверки состава записанного объявления из бд с тем что на сайте. В этом у меня проблема, помогите пожалуйста.
Нужно сделать хеш содержимого для каждой ссылки. Хеши хранишь в БД. При взятии содержимого с сайта ты делаешь его хеш и сравниваешь с хешем из БД. Если хеши не равны, надо пересохранить содержимое. Почему хеши делать, а не сразу сравнивать - потому что хеши короткие и быстрее читаются с базы. Если содержимое будет равно мегабайту, то его хеш всё равно будет равен нескольким байтам.



Офлайн

#3 Март 22, 2019 17:13:11

philips2009
Зарегистрирован: 2017-05-09
Сообщения: 45
Репутация: +  0  -
Профиль   Отправить e-mail  

Проверка инфы из MySQL

Благодарю за дельный совет

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version