Уведомления

Группа в Telegram: @pythonsu

#1 Янв. 9, 2017 19:06:57

sl0w
Зарегистрирован: 2016-04-28
Сообщения: 109
Репутация: +  1  -
Профиль   Отправить e-mail  

Парсинг сайта

Добрый вечер

Хотел бы узнать методы, которыми можно реализовать перенос контента с определенного сайта на мой

Недавно начал изучать библиотеку парсинга urllib и регулярные выражения, для выгрузки определенного контента нескольких сайтов, но встает вопрос относительно загрузки этого контента на “мой” сайт в автоматическом режиме, в качестве пользователя и публикации новости в определенном разделе. (могу авторизоваться на сайте, но каким образом возможно передать информацию из парсера в сообщение пользователя - для меня загадка)

для общего понимания картины можно импользовать этот сайт как пример места, в которое нужно загрузить информацию.

пс.
форум на xenforo

Буду очень признателен за помощь

Офлайн

#2 Янв. 10, 2017 02:38:06

py.user.next
От:
Зарегистрирован: 2010-04-29
Сообщения: 9998
Репутация: +  857  -
Профиль   Отправить e-mail  

Парсинг сайта

Вот здесь писал, как провести предварительный анализ. И чтение сайта, и запись на сайт сначала должны быть проанализированы с помощью браузера. Потом просто воспроизводишь основные действия обмена с помощью питона. Раньше можно было Wireshark'ом смотреть, но сегодня все сайты работают через https (зашифрованный http), а Wireshark очень сложно настроить на расшифровку.



Отредактировано py.user.next (Янв. 10, 2017 02:38:57)

Офлайн

#3 Янв. 11, 2017 00:43:19

sl0w
Зарегистрирован: 2016-04-28
Сообщения: 109
Репутация: +  1  -
Профиль   Отправить e-mail  

Парсинг сайта

хм, понял ход мысли

изучил немного литературы, попытался залогиниться на этом сайте с помощью питона

 import requests
from urllib  import urlopen
from bs4 import BeautifulSoup
class Inf(object):
    url  = "https://python.su/"
    def auth(self):
        session = requests.Session()
        url = self.url + "account/signin/"
        params = {
        "csrfmiddlewaretoken":"******************************",
        "email":"********************",
        "password":"**************",
       
       }
  
        r = session.post(url,params)
        print(r.text)
if __name__ == "__main__":
	print("hello world")
	inf = Inf()
	inf.auth()

естественно звездочки нужно заменить на значения свои

пока что не могу понять в чем ошибка, скорее всего в самом пути, который выглядит так: https://python.su/account/signin/ … более адекватные пути не были мной найдены

Отредактировано sl0w (Янв. 11, 2017 01:10:43)

Офлайн

#4 Янв. 11, 2017 15:52:21

sl0w
Зарегистрирован: 2016-04-28
Сообщения: 109
Репутация: +  1  -
Профиль   Отправить e-mail  

Парсинг сайта

Для разъяснения как такового:
на заинтересован в парсинге этого сайта, но хотел бы разобраться в скрапинге на его примере, к тому же остальным пользователям будет гораздо удобнее смотреть разметку/логирование, на примере этого сайта

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version