Python-сообщество

alexsemen94 · Авг. 4, 2016 13:35:32

 import scrapy
from nettuts.items import NettutsItem
class MySpider(scrapy.Spider):
    name = 'nettuts'
    allowed_domains = ["w3.org"]
    start_url = ["https://www.w3.org/"]
    def parse(self, response):
        for sel in response.xpath('//*[@id="w3c_home_upcoming_events"]/ul/li'):
            item = NettutsItem()
            item['title'] = sel.xpath('/a/text()').extract()
            yield item

Отредактировано alexsemen94 (Авг. 4, 2016 13:36:33)

scidam · Авг. 5, 2016 10:17:58

Домены www.w3.org и w3.org разные, попробуйте:

 allowed_domains = ["www.w3.org"]

Python-сообщество

Уведомления

#1 Авг. 4, 2016 13:35:32

паук scrapy не проходит по сайту, где что не так? спасибо заранее

#2 Авг. 5, 2016 10:17:58

паук scrapy не проходит по сайту, где что не так? спасибо заранее

Board footer