# -*- coding: utf-8 -*- import scrapy from testy.items import TestyItem from scrapy.loader import ItemLoader from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor ------------------------------------------------------ class TestyismySpider(CrawlSpider): name = "testyismy" allowed_domains = ["i"] start_urls = ['https://i'] rules = ( Rule(LinkExtractor( restrict_xpaths =('//a[contains(text(),"Вперёд")][1]')), callback = "parse_boobs",follow = True), ) def parse_boobs(self, response): l = ItemLoader(item = TestyItem(),response = response) l.add_xpath('url','//h3/a[contains(@href,"threads")]/@href') return l.load_item()
этот код позволяет извлекать рекурсивно всю нужную мне информацию, но почему то только со 2 страницы, каким можно образом организовать сбор информации уже с первой страницы?