Найти - Пользователи
Полная версия: Исключение повторного парсинга контента
Начало » Python для новичков » Исключение повторного парсинга контента
1 2
Notan1310
Alex_HH
То есть ваш парсер парсит, а потом авторизируеться в админке заполняет поля и отправляет форму, которая добавляет даннные в БД?

Ну выходит что так. Только в wordPress есть rpc по которому можно коннектиться и публиковать запись как тебе удобно применяя python, без лишнего анализа самой структуры бд….Ну это сейчас для меня самый простой вариант.
Alex_HH
Для тех, кто не знает, что такое XML-RPC — это WordPress API, позволяющий (удалённо) выводить, создавать, редактировать и удалять:

посты,
таксономии (рубрики, метки и прочее),
медиафайлы,
комментарии,
пользователей.

А также получать доступ к настройкам и изменять их.
Это ваш RPC ?
Notan1310
Alex_HH
Это ваш RPC ?
Да.
Alex_HH
Ну так если он позволяет получаеть данные, спарсили чуть чуть, обратились через апи к сайту, узнали есть такоей контент или нет, и дальше уже по ситуации.
py.user.next
Notan1310
Интересует вопрос по парсингу контента, а именно как исключить материал который мы уже скопировали?
У скопированного контента вычисляешь хеш и сохраняешь, а у новых контентов тоже вычисляешь хеши и ищешь во множестве сохранённых.
Alex_HH
py.user.next
У скопированного контента вычисляешь хеш и сохраняешь, а у новых контентов тоже вычисляешь хеши и ищешь во множестве сохранённых.

В продолжении темы, а куда вы бы советовали сохранять, просто файл, дополнительное поле в БД, просто другая БД, или…?
py.user.next
Alex_HH
В продолжении темы, а куда вы бы советовали сохранять, просто файл, дополнительное поле в БД, просто другая БД
Чем проще, тем лучше. Просто файл для каждого источника контента.
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB