Форум сайта python.su
0
Alex_HH
То есть ваш парсер парсит, а потом авторизируеться в админке заполняет поля и отправляет форму, которая добавляет даннные в БД?
Отредактировано Notan1310 (Янв. 20, 2015 21:41:15)
Офлайн
13
Для тех, кто не знает, что такое XML-RPC — это WordPress API, позволяющий (удалённо) выводить, создавать, редактировать и удалять:Это ваш RPC ?
посты,
таксономии (рубрики, метки и прочее),
медиафайлы,
комментарии,
пользователей.
А также получать доступ к настройкам и изменять их.
Офлайн
0
Alex_HHДа.
Это ваш RPC ?
Отредактировано Notan1310 (Янв. 20, 2015 21:47:32)
Офлайн
13
Ну так если он позволяет получаеть данные, спарсили чуть чуть, обратились через апи к сайту, узнали есть такоей контент или нет, и дальше уже по ситуации.
Офлайн
857
Notan1310У скопированного контента вычисляешь хеш и сохраняешь, а у новых контентов тоже вычисляешь хеши и ищешь во множестве сохранённых.
Интересует вопрос по парсингу контента, а именно как исключить материал который мы уже скопировали?
Офлайн
13
py.user.next
У скопированного контента вычисляешь хеш и сохраняешь, а у новых контентов тоже вычисляешь хеши и ищешь во множестве сохранённых.
Офлайн
857
Alex_HHЧем проще, тем лучше. Просто файл для каждого источника контента.
В продолжении темы, а куда вы бы советовали сохранять, просто файл, дополнительное поле в БД, просто другая БД
Офлайн