Уведомления

Группа в Telegram: @pythonsu

#1 Март 22, 2016 02:44:22

alex_sv
Зарегистрирован: 2016-03-11
Сообщения: 6
Репутация: +  0  -
Профиль   Отправить e-mail  

Помогите пожалуйста с парсингом сайта

Добрый день.
Что-то не то с правилами обхода страниц ботом, насколько я могу судить.

class ScrapyTestSpider(CrawlSpider):
    name = "positronica1"
    allowed_domains = ["positronica.ru"]
    start_urls = ["http://positronica.ru/catalog/pz/server/?brand=200&onpage=48"
    ]
    rules = (
        Rule(LinkExtractor(deny=('&filter=',)), follow = False),
        Rule(LinkExtractor(deny=('&brand=',)), follow = False),
        Rule(LinkExtractor(allow=('/pz/server/')), follow=True),
        Rule(LinkExtractor(allow=('/servers/')), callback='parse_item', follow=False)
        
    )

Офлайн

#2 Март 22, 2016 16:35:41

Kir@
Зарегистрирован: 2015-08-13
Сообщения: 124
Репутация: +  0  -
Профиль   Отправить e-mail  

Помогите пожалуйста с парсингом сайта

Ошибка какая возникает? Или что работает ни так, как надо? Или это попытка повысить посещаемость сайта? )

Офлайн

#3 Март 22, 2016 17:19:18

alex_sv
Зарегистрирован: 2016-03-11
Сообщения: 6
Репутация: +  0  -
Профиль   Отправить e-mail  

Помогите пожалуйста с парсингом сайта

Ошибка заключается в том, что ничего не собирается. Я подозреваю, что дело не доходит до запуска функции parse_item. М вопрос к знатокам - нормально ли у меня прописаны правила, или гле-то накосячил?
Я код функции не приводил - но он рабочий, проверено.

А с посещаемостью на сайте позитроники я думаю и без меня все нормально.

Отредактировано alex_sv (Март 22, 2016 17:21:20)

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version