Уведомления

Группа в Telegram: @pythonsu

#1 Янв. 20, 2015 21:40:47

Notan1310
Зарегистрирован: 2014-09-14
Сообщения: 98
Репутация: +  0  -
Профиль   Отправить e-mail  

Исключение повторного парсинга контента

Alex_HH
То есть ваш парсер парсит, а потом авторизируеться в админке заполняет поля и отправляет форму, которая добавляет даннные в БД?

Ну выходит что так. Только в wordPress есть rpc по которому можно коннектиться и публиковать запись как тебе удобно применяя python, без лишнего анализа самой структуры бд….Ну это сейчас для меня самый простой вариант.

Отредактировано Notan1310 (Янв. 20, 2015 21:41:15)

Офлайн

#2 Янв. 20, 2015 21:45:46

Alex_HH
Зарегистрирован: 2014-03-03
Сообщения: 91
Репутация: +  13  -
Профиль   Отправить e-mail  

Исключение повторного парсинга контента

Для тех, кто не знает, что такое XML-RPC — это WordPress API, позволяющий (удалённо) выводить, создавать, редактировать и удалять:

посты,
таксономии (рубрики, метки и прочее),
медиафайлы,
комментарии,
пользователей.

А также получать доступ к настройкам и изменять их.
Это ваш RPC ?



————–
Зимой и летом heavy metall.
Технический прогресс - это падение вверх. Alex_HH (с)
Эстетизация жестокости есть квинтэссенция смысла человеческого существования. Alex_HH (с)
После бога идет не пустота, там метаданные. Alex_HH (с)

Офлайн

#3 Янв. 20, 2015 21:47:14

Notan1310
Зарегистрирован: 2014-09-14
Сообщения: 98
Репутация: +  0  -
Профиль   Отправить e-mail  

Исключение повторного парсинга контента

Alex_HH
Это ваш RPC ?
Да.

Отредактировано Notan1310 (Янв. 20, 2015 21:47:32)

Офлайн

#4 Янв. 20, 2015 21:50:15

Alex_HH
Зарегистрирован: 2014-03-03
Сообщения: 91
Репутация: +  13  -
Профиль   Отправить e-mail  

Исключение повторного парсинга контента

Ну так если он позволяет получаеть данные, спарсили чуть чуть, обратились через апи к сайту, узнали есть такоей контент или нет, и дальше уже по ситуации.



————–
Зимой и летом heavy metall.
Технический прогресс - это падение вверх. Alex_HH (с)
Эстетизация жестокости есть квинтэссенция смысла человеческого существования. Alex_HH (с)
После бога идет не пустота, там метаданные. Alex_HH (с)

Офлайн

#5 Янв. 21, 2015 11:44:15

py.user.next
От:
Зарегистрирован: 2010-04-29
Сообщения: 10016
Репутация: +  857  -
Профиль   Отправить e-mail  

Исключение повторного парсинга контента

Notan1310
Интересует вопрос по парсингу контента, а именно как исключить материал который мы уже скопировали?
У скопированного контента вычисляешь хеш и сохраняешь, а у новых контентов тоже вычисляешь хеши и ищешь во множестве сохранённых.



Офлайн

#6 Янв. 21, 2015 14:43:19

Alex_HH
Зарегистрирован: 2014-03-03
Сообщения: 91
Репутация: +  13  -
Профиль   Отправить e-mail  

Исключение повторного парсинга контента

py.user.next
У скопированного контента вычисляешь хеш и сохраняешь, а у новых контентов тоже вычисляешь хеши и ищешь во множестве сохранённых.

В продолжении темы, а куда вы бы советовали сохранять, просто файл, дополнительное поле в БД, просто другая БД, или…?



————–
Зимой и летом heavy metall.
Технический прогресс - это падение вверх. Alex_HH (с)
Эстетизация жестокости есть квинтэссенция смысла человеческого существования. Alex_HH (с)
После бога идет не пустота, там метаданные. Alex_HH (с)

Офлайн

#7 Янв. 22, 2015 03:14:45

py.user.next
От:
Зарегистрирован: 2010-04-29
Сообщения: 10016
Репутация: +  857  -
Профиль   Отправить e-mail  

Исключение повторного парсинга контента

Alex_HH
В продолжении темы, а куда вы бы советовали сохранять, просто файл, дополнительное поле в БД, просто другая БД
Чем проще, тем лучше. Просто файл для каждого источника контента.



Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version