Форум сайта python.su
Здравствуйте дорогие форумчане!
Создал скрипт для паркинга информации с сайта объявлений с последующей записью в бд MySQL на локальном ПК. Прицип таков:
1. загрузка всех записанных ссылок объявлений из бд MySQL в питоновский список (checked_urls)
2. загрузка всех уникальных ссылок объявлений с сайта в питоновский список (unchecked_urls)
if url not in checked_urls:
unchecked_urls.append(url)
Отредактировано philips2009 (Март 20, 2019 20:06:22)
Офлайн
philips2009Нужно сделать хеш содержимого для каждой ссылки. Хеши хранишь в БД. При взятии содержимого с сайта ты делаешь его хеш и сравниваешь с хешем из БД. Если хеши не равны, надо пересохранить содержимое. Почему хеши делать, а не сразу сравнивать - потому что хеши короткие и быстрее читаются с базы. Если содержимое будет равно мегабайту, то его хеш всё равно будет равен нескольким байтам.
Появилась необходимость проверки состава записанного объявления из бд с тем что на сайте. В этом у меня проблема, помогите пожалуйста.
Офлайн
Благодарю за дельный совет
Офлайн