DjangoBB LoFi version

Полная версия: Исключение повторного парсинга контента

Начало » Python для новичков » Исключение повторного парсинга контента

1 2

Notan1310

Янв. 20, 2015 21:40:47

Alex_HH
То есть ваш парсер парсит, а потом авторизируеться в админке заполняет поля и отправляет форму, которая добавляет даннные в БД?

Ну выходит что так. Только в wordPress есть rpc по которому можно коннектиться и публиковать запись как тебе удобно применяя python, без лишнего анализа самой структуры бд….Ну это сейчас для меня самый простой вариант.

Alex_HH

Янв. 20, 2015 21:45:46

Для тех, кто не знает, что такое XML-RPC — это WordPress API, позволяющий (удалённо) выводить, создавать, редактировать и удалять:

посты,
таксономии (рубрики, метки и прочее),
медиафайлы,
комментарии,
пользователей.

А также получать доступ к настройкам и изменять их.

Это ваш RPC ?

Notan1310

Янв. 20, 2015 21:47:14

Alex_HH
Это ваш RPC ?

Да.

Alex_HH

Янв. 20, 2015 21:50:15

Ну так если он позволяет получаеть данные, спарсили чуть чуть, обратились через апи к сайту, узнали есть такоей контент или нет, и дальше уже по ситуации.

py.user.next

Янв. 21, 2015 11:44:15

Notan1310
Интересует вопрос по парсингу контента, а именно как исключить материал который мы уже скопировали?

У скопированного контента вычисляешь хеш и сохраняешь, а у новых контентов тоже вычисляешь хеши и ищешь во множестве сохранённых.

Alex_HH

Янв. 21, 2015 14:43:19

py.user.next
У скопированного контента вычисляешь хеш и сохраняешь, а у новых контентов тоже вычисляешь хеши и ищешь во множестве сохранённых.

В продолжении темы, а куда вы бы советовали сохранять, просто файл, дополнительное поле в БД, просто другая БД, или…?

py.user.next

Янв. 22, 2015 03:14:45

Alex_HH
В продолжении темы, а куда вы бы советовали сохранять, просто файл, дополнительное поле в БД, просто другая БД

Чем проще, тем лучше. Просто файл для каждого источника контента.