首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Scrapy爬行器在将'start_urls‘变量设置为变量后不会产生提要输出

Scrapy是一个用于爬取网站数据的Python框架。它提供了一种简单而强大的方式来定义爬取规则,并自动处理请求、响应、数据提取和存储等任务。在Scrapy中,'start_urls'是一个用于指定初始爬取链接的变量。

当将'start_urls'变量设置为变量后,Scrapy不会产生提要输出。这是因为Scrapy在启动时会读取'start_urls'变量的值,并将其作为初始爬取链接进行处理。如果'start_urls'变量是一个变量,而不是一个具体的链接列表,Scrapy将无法确定要爬取的链接,因此不会产生任何输出。

为了解决这个问题,可以通过重写Scrapy的start_requests()方法来动态生成初始爬取链接。在start_requests()方法中,可以根据需要从变量中获取链接,并使用yield关键字返回一个或多个Request对象,每个对象代表一个要爬取的链接。这样,Scrapy就能够正确处理变量作为'start_urls'的情况,并产生相应的输出。

以下是一个示例代码,展示了如何使用变量作为'start_urls'并生成初始爬取链接:

代码语言:python
代码运行次数:0
复制
import scrapy

class MySpider(scrapy.Spider):
    name = 'my_spider'
    
    def __init__(self, start_urls_var, *args, **kwargs):
        super(MySpider, self).__init__(*args, **kwargs)
        self.start_urls_var = start_urls_var
    
    def start_requests(self):
        start_urls = self.get_start_urls()
        for url in start_urls:
            yield scrapy.Request(url=url, callback=self.parse)
    
    def get_start_urls(self):
        # 根据需要从变量中获取链接
        start_urls = []
        # 从self.start_urls_var中获取链接并添加到start_urls列表中
        # ...
        return start_urls
    
    def parse(self, response):
        # 解析响应数据的逻辑
        # ...

在上述示例中,通过在Spider的构造函数中接收'start_urls_var'参数,并将其保存在实例变量'start_urls_var'中。然后,在start_requests()方法中调用get_start_urls()方法获取初始爬取链接,并使用yield关键字返回Request对象。在get_start_urls()方法中,可以根据需要从'start_urls_var'中获取链接,并将其添加到start_urls列表中。

通过以上的实现,Scrapy就能够正确处理变量作为'start_urls'的情况,并生成相应的输出。

腾讯云相关产品和产品介绍链接地址:

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

  • Scrapy-Redis分布式爬虫组件

    分布式爬虫必须要解决的问题: 分布式爬虫是好几台机器同时运行,如何保证不同的机器爬取页面的时候不会出现重复爬取的问题。 同样,分布式爬虫不同的机器上运行,把数据爬完如何保证保存在同一个地方。...Item Pipeline接收到数据发送给了Redis、Scheduler调度调度数据也是从Redis中来的、并且其实数据去重也是Redis中做的。...爬虫中的start_urls删掉。增加一个redis_key="xxx"。这个redis_key是为了以后redis中控制爬虫启动的。爬虫的第一个url,就是redis中通过这个发送出去的。...# redis中保持scrapy-redis用到的队列,不会清理redis中的队列,从而可以实现暂停和恢复的功能。...爬虫服务上。

    82530

    Scrapy框架的使用之Downloader Middleware的用法

    随后parse()方法添加一行日志输出response变量的text属性输出出来,这样我们便可以看到Scrapy发送的Request信息了。...如果没有传递USER_AGENT参数就默认设置Scrapy字符串。我们新建的项目没有设置USER_AGENT,所以这里的user_agent变量就是Scrapy。...接下来,process_request()方法中,user-agent变量设置headers变量的一个属性,这样就成功设置了User-Agent。...spider): response.status = 201 return response 我们response变量的status属性修改为201,随后response返回,这个被修改的...我们再在Spider里面输出修改的状态码,parse()方法中添加如下的输出语句: self.logger.debug('Status Code: ' + str(response.status))

    2.6K30

    基于 Python 的 Scrapy 爬虫入门:代码详解

    顶部菜单“发现” “标签”里面是对各种图片的分类,点击一个标签,比如“美女”,网页的链接:https://tuchong.com/tags/美女/,我们以此作为爬虫入口,分析一下该页面: 打开页面出现一个个的图集...:基础设置 items.py:抓取条目的结构定义 middlewares.py:中间件定义,此例中无需改动 pipelines.py:管道定义,用于抓取数据的处理 settings.py:全局设置 spiders...如果网站设置了浏览User Agent或者IP地址检测来反爬虫,那就需要更高级的Scrapy功能,本文不做讲解。...四、运行 返回 cmder 命令行进入项目目录,输入命令: scrapy crawl photo 终端会输出所有的爬行结果及调试信息,并在最后列出爬虫运行的统计信息,例如: [scrapy.statscollectors...-o output.json # 输出JSON文件 scrapy crawl photo -o output.csv # 输出CSV文件 注意:输出至文件中的项目是未经过 TuchongPipeline

    1.4K90

    016:Scrapy使用中必须得会的问题

    (1)优点:scrapy 是异步的 采取可读性更强的 xpath 代替正则强大的统计和 log 系统,同时不同的 url 上爬行支持 shell 方式,方便独立调试写 middleware,方便写一些统一的过滤器...,通过管道的方式存入数据库 (2)缺点:基于 python 的爬虫框架,扩展性比较差 基于 twisted 框架,运行中的 exception 是不会干掉 reactor,并且异步框架出错不会停掉其他任务的...scrapy去重原理 对于每一个url的请求,调度都会根据请求得相关信息加密(request_fingerprint)得到一个指纹信息,并且指纹信息和set()集合中的指纹信息进行比对,如果set(...url: 已知服务信息时,如何过滤存在别名的url地址: 所以要规范化url: 如何避免动态虚拟web空间的循环和重复?.../article/details/89431997 scrapy爬取深度设置(url的深度) 通过settings.py中设置DEPTH_LIMIT的值可以限制爬取深度,这个深度是与start_urls

    1.5K10

    python scrapy学习笔记

    一、安装scrapy # pip install scrapy 二、基本使用 1、初始化scrapy项目 # scrapy startproject myscrapy 初始化完成的目录结构 # ...url,并输出到文件中,最后输出爬去报告,会输出爬取得统计结果 2、通过代码运行爬虫 每次进入控制台运行爬虫还是比较麻烦的,而且不好调试,我们可以通过CrawlerProcess通过代码运行爬虫,新建一个模块...的链接,可以在这个方法里面定制,如果重写了该方法,start_urls默认将不会被使用,可以在这个方法里面定制一些自定义的url,如登录,从数据库读取url等,本方法返回Request对象 make_requests_from_url...,而不是真正的属性,使用的时候通过键值对操作,不支持属性访问 七、Pipeline spider负责爬虫的配置,item负责声明结构化数据,而对于数据的处理,scrapy中使用管道的方式进行处理,只要注册过的管道都可以处理...item数据(处理,过滤,保存) 示例:这里定义一个预处理管道PretreatmentPipeline.py,如果item的titleNone,则设置空字符串 class PretreatmentPipeline

    59320

    Scrapy入门到放弃02:了解整体架构,开发一个程序

    修改的程序输出结果和之前相同。 Request 我们使用yield Request发起一个请求,为什么不用return?因为yield不会立即返回,不会终结方法。...如果我们start_urls写入两条一样的url时,只会输出一次结果,如果我们修改为True,则输出两次。...method:请求方式,默认为get priority:请求优先级,默认为0,数值越大优先级越大 至于cookies、headers参数,我们可以Request设置,但大多时候都是在下载middleware...shell 如图所示,进入shell环境,自动封装了一些变量,这里我们只关注响应response。 response 如图,我们shell交互环境中对网页进行了解析。...这样,我们测试好的解析代码复制到程序中即可,这样提高了开发效率。 输入view(response),敲击回车,将自动浏览打开页面。

    57510

    scrapy 快速入门

    安装Scrapy Scrapy是一个高级的Python爬虫框架,它不仅包含了爬虫的特性,还可以方便的爬虫数据保存到csv、json等文件中。 首先我们安装Scrapy。...开始链接 在上面的例子中使用start_requests()方法来设置起始URL,如果只需要简单指定URL还可以使用另一种简便方法,那就是设置类属性start_urlsScrapy会读取该属性来设置起始...Scrapy支持多种格式,除了json之外,还可以数据导出XML、CSV等格式。...设置编码 如果你使用上面的爬虫并导出json格式,可能会发现所有汉字全变成了Unicode字符(类似\uA83B这样的)。...自Scrapy1.2 起,增加了FEED_EXPORT_ENCODING属性,用于设置输出编码。我们settings.py中添加下面的配置即可。

    1.3K50

    普通爬虫有啥意思,我写了个通用Scrapy爬虫

    LinkExtractor常用的参数如下: •allow:满足括号中正则表达式的URL会被提取,如果空,则全部匹配;•deny:满足括号中正则表达式的URL不会被提取,优先级高于allow;•allow_domains...(item={}, response=())变量名.add_选择('数据字段名', '选择规则')return 变量名.load_item() 其中: •item是对象;•response是网页的响应数据...settings.py文件中启动引擎,并在pipelines.py文件中打印输出,运行结果如下: 通用配置抽取 有人可能说,就这?就一个Rule规则就实现了通用?等等,别急!!!...我们爬虫代码中,很多代码都是重复的,例如变量、方法名几乎都是一致的,那么我们可以把完全不同的地方抽离出来,做成可配置文件。...,通过刚才Read_configs.py所创建的get_config()配置文件quotes.json读取保存下来,再通过get()方法把Spider爬虫名获取下来并存放在spider变量中,通过get_project_settings

    1K10

    006:开启Scrapy爬虫项目之旅

    现在我们打开之前的 First_Get 爬虫项目,打开里面的items.py,打开内容是这样的: 我们要对结构化信息进行定义,可以直接修改对应的类,比如此时需要修改的类FirstGetItem...allowed_domains代表的是允许爬行的域名。 start_urls属性代表的是爬行的起始网址。...:个性化设置,会覆盖全局的设置 crawler:抓取,spider绑定到它上面 custom_settings:配置实例,包含工程中所有的配置变量 logger:日志实例,打印调试信息 方法...官方文档 同一个进程中运行多个蜘蛛 默认情况下,Scrapy您运行时每个进程运行一个蜘蛛。但是,Scrapy支持使用内部API每个进程运行多个蜘蛛。...2、设置下载延时: 这个很容易理解的,就是我们爬取某些网站的时候,如果频率过快,则网站会判断你是进行自动爬虫行为。识别后对我们进行相应的限制,比如禁止我们再爬取服务上的网页等。

    79820

    Scrapy框架没有她可不行哦(爬虫)

    国庆70周年 国庆70周年 Scrapy中,要抓取网站的链接配置、抓取逻辑、解析逻辑里其实都是Spider中配置的。 Spider要做的事就是有两件:定义抓取网站的动作和分析爬取下来的网页。...1 Spider运行流程: 整个抓取循环过程如下所述: 以初始的URL初始化Request,并设置回调函数。请求成功时Response生成并作为参数传给该回调函数。 回调函数内分析返回的网页内容。...返回结果两种形式,一种字典或Item数据对象;另一种是解析到下一个链接。 如果返回的是字典或Item对象,我们可以结果存入文件,也可以使用Pipeline处理并保存。...custom_settings: 它是一个字典,专属于Spider的配置,此设置会覆盖项目全局的设置,必须定义成类变量。...settings: 利用它我们可以直接获取项目的全局设置变量。 start_requests(): 使用start_urls里面的URL来构造Request,而且Request是GET请求方法。

    73320

    项目实战 | Python爬虫概述与实践(三)

    徒手写爬虫代码时,如果请求一系列URL,我们需要维护URL队列,如果对速度还有要求的话,还那需要编写多线程代码,想想就脑阔疼。...所以python爬虫的第三篇文章,我们介绍解决这些问题而设计的爬虫框架——Scrapy,内容安排如下: Scrapy是什么 Scrapy安装 Scrapy入门实例 一、Scrapy是什么 Scrapy...1.创建项目 F:\PycharmWorkspace目录下创建名为quotesScrapy的项目 2.创建爬虫 创建名为quote的爬虫,限制爬行区域http://quotes.toscrape.com.../ pycharm中打开创建的项目,Scrapy已经自动我们创建了很多内容 3.明确目标(items.py) 打开items.py文件 Item定义结构化数据字段,用来保存爬取到的数据,类似...解析方法可以用BeautifulSoup、正则化方法,也可以用scrapy中定义的selectors选择

    53320

    scrapy-redis分布式爬虫

    Master端只有一个Redis数据库,负责未处理的Request去重和任务分配,处理的Request加入待爬队列,并且存储爬取的数据。...使用了scrapy_redis的调度redis里分配请求 SCHEDULER = "scrapy_redis.scheduler.Scheduler" 3(可选)....redis中保持scrapy-redis用到的各个队列,从而允许暂停和暂停恢复,也就是不清理redis queues SCHEDULER_PERSIST = True 4(必须)....通过配置RedisPipelineitem写入key spider.name : items 的redis的list中,供后面的分布式处理item 这个已经由 scrapy-redis 实现,不需要我们写代码...由于分布式scrapy-redis中每个请求都是从redis中取出来的,因此,redis数据库中,设置一个redis_key的值,作为初始的url,scrapy就会自动redis中取出redis_key

    1.4K50

    Scrapy框架的使用之Scrapy通用爬虫

    如果callback参数None,follow默认设置True,否则默认为False。...另外,Item Loader每个字段中都包含了一个Input Processor(输入处理)和一个Output Processor(输出处理)。...再运行一下Spider,如下所示: scrapy crawl china 输出内容如下图所示。 ? 现在我们就可以成功每条新闻的信息提取出来。 不过我们发现这种提取方式非常不规整。...所有的变量都可以抽取,如name、allowed_domains、start_urls、rules等。这些变量CrawlSpider初始化的时候赋值即可。...某些情况下,start_urls也需要动态配置。我们start_urls分成两种,一种是直接配置URL列表,一种是调用方法生成,它们分别定义static和dynamic类型。

    2.5K60

    精通Python爬虫框架Scrapy_php爬虫框架哪个好用

    URL,交给调度入队列 调度处理请求出队列,通过下载中间件交给下载去下载 下载得到响应对象,通过蜘蛛中间件交给爬虫程序 爬虫程序进行数据提取: 数据交给管道文件去入库处理...:爬虫项目启动时起始的URL地址 爬虫文件运行流程描述 爬虫项目启动,引擎找到此爬虫文件,start_urls中URL地址拿走 交给调度入队列,然后出队列交给下载下载,得到response...:guazi.py 整理 3、快捷抓取多页数据 4、总结 – 爬虫项目启动方式 基于start_urls启动 从爬虫文件的start_urls变量中遍历URL地址交给调度入队列...把下载返回的响应对象交给爬虫文件的parse()函数处理 重写start_requests()方法 去掉start_urls变量 def start_requests(self): ​ 生成要爬取的...删掉start_urls变量 # 2.

    1.2K20

    爬虫系列(10)Scrapy 框架介绍、安装以及使用。

    它更容易构建和大规模的抓取项目 它内置的机制被称为选择,用于从网站(网页)上提取数据 它异步处理请求,速度十分快 它可以使用自动调节机制自动调整爬行速度 确保开发人员可访问性 1.2 Scrapy的特点...下载是建立twisted这个高效的异步模型上的) 爬虫(Spiders) 爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。...当页面被爬虫解析,将被发送到项目管道,并经过几个特定的次序处理数据。...) 介于Scrapy引擎和爬虫之间的框架,主要工作是处理蜘蛛的响应输入和请求输出 调度中间件(Scheduler Middewares) 介于Scrapy引擎和调度之间的中间件,从Scrapy引擎发送到调度的请求和响应...(真正爬虫相关的配置信息settings.py文件中) items.py 设置数据存储模板,用于结构化数据,如:Django的Model pipelines 数据处理行为,如:一般结构化的数据持久化

    1.4K40

    一、了解Scrapy

    一、演示项目 为了向您展示Scrapy带来的好处,我将使用最简单的方式介绍 Scrapy 的示例。下面我们以爬取 http://quotes.toscrape.com/ 网站例。...import scrapy class QuotesSpider(scrapy.Spider): name = 'quotes' start_urls = [ 'http...scrapy runspider quotes_spider.py -o quotes.json 上述命令执行完成将会在 quotes_spider.py 的同级目录中出现一个 quotes.json...程序开始运行时,会对 start_urls 属性中定义的 URL 发送请求,并将响应结果作为参数传递给默认的回调方法 parse , parse 中我们使用 CSS 选择遍历 quote 元素,生成包含从响应结果中提取出的文本信息和作者...尽管这这样能够进行非常快的爬取网页,但是还可以通过一些设置来限制爬取网站的方式。例如可以执行以下操作:设置每个请求之间的下载延迟,限制每个域或每个IP的并发请求数量。

    89320

    scrapy(2)——scrapy爬取新浪微博(单机版)

    图2-5 执行爬取指令 Scrapy爬虫的 start_urls属性中的每个URL创建了一个 scrapy.http.Request 对象 ,并将爬虫的parse 方法指定为回调函数。...执行完指令之后,命令行中会有如下的输出信息,如图2-6所示: ? 图2-6 日志信息 在这些输出的内容中,包含着scrapy爬虫运行的日志信息。 包含 [dmoz]的那些行,那对应着爬虫的日志。...你可以看到start_urls中定义的每个URL(存储dmoz_spider.py中的start_urls的list中)都有日志行。...图2-16 爬虫文件目录设置源目录 修改完之后,使用指令“scrapy crawl dmoz -o items.json”即可将爬取的内容保存为json格式的文件,如图2-17所示: ?...③浏览中访问“http://localhost:27017/”,如果出现如图3-3所示的情况,代表mongoDB开启成功。 ?

    2.4K150
    领券