Python-сообщество

alex_sv · Март 22, 2016 02:44:22

Добрый день.
Что-то не то с правилами обхода страниц ботом, насколько я могу судить.

class ScrapyTestSpider(CrawlSpider):
    name = "positronica1"
    allowed_domains = ["positronica.ru"]
    start_urls = ["http://positronica.ru/catalog/pz/server/?brand=200&onpage=48"
    ]
    rules = (
        Rule(LinkExtractor(deny=('&filter=',)), follow = False),
        Rule(LinkExtractor(deny=('&brand=',)), follow = False),
        Rule(LinkExtractor(allow=('/pz/server/')), follow=True),
        Rule(LinkExtractor(allow=('/servers/')), callback='parse_item', follow=False)
        
    )

Kir@ · Март 22, 2016 16:35:41

Ошибка какая возникает? Или что работает ни так, как надо? Или это попытка повысить посещаемость сайта? )

alex_sv · Март 22, 2016 17:19:18

Ошибка заключается в том, что ничего не собирается. Я подозреваю, что дело не доходит до запуска функции parse_item. М вопрос к знатокам - нормально ли у меня прописаны правила, или гле-то накосячил?
Я код функции не приводил - но он рабочий, проверено.

А с посещаемостью на сайте позитроники я думаю и без меня все нормально.

Отредактировано alex_sv (Март 22, 2016 17:21:20)

Python-сообщество

Уведомления

#1 Март 22, 2016 02:44:22

Помогите пожалуйста с парсингом сайта

#2 Март 22, 2016 16:35:41

Помогите пожалуйста с парсингом сайта

#3 Март 22, 2016 17:19:18

Помогите пожалуйста с парсингом сайта

Board footer