我需要创建一个网站网址列表。为此,我使用了Scrapy2.3.0。问题是结果('item_scraped_count')是63个链接,但我知道还有更多。
有什么方法可以处理更深的层次并获取url吗?
我的代码如下:
from scrapy.spiders import CrawlSpider
from scrapy.spiders import Rule
from scrapy.linkextractors import LinkExtractor
from scrapy import Item
from scrapy import Field
class UrlItem(Item):
    url = Field()
class RetriveUrl(CrawlSpider):
    name = 'retrive_url'
    allowed_domains = ['example.com']
    start_urls = ['https://www.example.com']
    rules = (
        Rule(LinkExtractor(), callback='parse_url'),
    )
    def parse_url(self, response):
        item = UrlItem()
        item['url'] = response.url
        return item发布于 2020-08-19 13:22:54
你应该允许爬行到更深的层次。试试这个:
Rule(LinkExtractor(), callback='parse_url', follow=True),
follow是一个布尔值,它指定是否应该从使用此规则提取的每个响应中遵循链接。如果callback是None,那么默认为True,否则默认为False。
(从刮伤医生那里)
https://stackoverflow.com/questions/63487741
复制相似问题