如何使用scrapyd启动一个每周或每月的任务运行一个爬虫？

Scrapyd是一个用于部署和运行Scrapy爬虫的开源工具。它可以让你通过HTTP接口来控制爬虫的启动、停止和监控。要使用Scrapyd启动一个每周或每月的任务运行一个爬虫，可以按照以下步骤进行操作：

首先，确保已经安装了Scrapyd。可以通过pip命令进行安装：pip install scrapyd。
创建一个Scrapy爬虫项目。可以使用Scrapy命令行工具创建一个新的爬虫项目：scrapy startproject myproject。
在爬虫项目的根目录下，创建一个名为scrapyd.conf的配置文件。该文件用于配置Scrapyd的相关参数。在该文件中，可以指定爬虫的运行频率和时间。
例如，如果要每周运行爬虫，可以在scrapyd.conf中添加以下内容：
例如，如果要每周运行爬虫，可以在scrapyd.conf中添加以下内容：
如果要每月运行爬虫，可以添加以下内容：
如果要每月运行爬虫，可以添加以下内容：
其中，myspider是爬虫的名称，every week/month表示运行频率，0:00表示运行时间。
启动Scrapyd服务。在命令行中执行以下命令：scrapyd。这将启动Scrapyd服务，并监听默认端口6800。
部署爬虫到Scrapyd。在爬虫项目的根目录下，执行以下命令：scrapyd-deploy。这将会将爬虫项目部署到Scrapyd服务中。
使用Scrapyd的API接口来启动爬虫。可以通过发送HTTP请求来启动爬虫。例如，可以使用curl命令发送POST请求来启动爬虫：
使用Scrapyd的API接口来启动爬虫。可以通过发送HTTP请求来启动爬虫。例如，可以使用curl命令发送POST请求来启动爬虫：
其中，localhost:6800是Scrapyd服务的地址和端口，myproject是爬虫项目的名称，myspider是爬虫的名称。

以上是使用Scrapyd启动一个每周或每月的任务运行一个爬虫的步骤。通过配置Scrapyd的调度器和使用Scrapyd的API接口，可以实现定时运行爬虫的功能。

相关·内容

跟繁琐的命令行说拜拜！Gerapy分布式爬虫管理框架来袭！

Scrapy 的确是一个非常强大的爬虫框架，爬取效率高，扩展性好，基本上是使用 Python 开发爬虫的必备利器。...如果使用 Scrapy 做爬虫，那么在爬取时，我们当然完全可以使用自己的主机来完成爬取，但当爬取量非常大的时候，我们肯定不能在自己的机器上来运行爬虫了，一个好的方法就是将 Scrapy 部署到远程服务器上来执行...myproject 项目的 somespider 爬虫，而不用我们再用命令行方式去启动爬虫，同时 Scrapyd 还提供了查看爬虫状态、取消爬虫任务、添加爬虫版本、删除爬虫版本等等的一系列 API，所以说...监控任务部署完毕之后就可以回到主机管理页面进行任务调度了，任选一台主机，点击调度按钮即可进入任务管理页面，此页面可以查看当前 Scrapyd 服务的所有项目、所有爬虫及运行状态： ?...我们可以通过点击新任务、停止等按钮来实现任务的启动和停止等操作，同时也可以通过展开任务条目查看日志详情： ? 另外我们还可以随时点击停止按钮来取消 Scrapy 任务的运行。

89611 1

一个Scrapy项目下的多个爬虫如何同时运行？

我们知道，如果要在命令行下面运行一个 Scrapy 爬虫，一般这样输入命令： scrapy crawl xxx 此时，这个命令行窗口在爬虫结束之前，会一直有数据流动，无法再输入新的命令。...当我们运行这个文件python3 main.py，Scrapy 爬虫也能正常启动。但如果我们要运行同一个项目下面的两个爬虫，也需要开两个命令窗口。...运行ua时，爬虫输出如下图所示： ? 如果我把运行两个爬虫的代码同时写到main.py里面会怎么样呢？我们试试看： ? 可以看到，这两个爬虫是串行运行的。首先第一个爬虫运行。...为了让同一个 Scrapy 项目下面的多个爬虫实现真正的同时运行，我们可以使用 Scrapy 的CrawlerProcess。...('爬虫名2') crawler.crawl('爬虫名3') crawler.start() 使用这种方法，可以在同一个进程里面跑多个爬虫。

2.6K1 0

手把手教你用Scrapy+Gerapy部署网络爬虫

配置Scrapyd 可以理解Scrapyd是一个管理我们写的Scrapy项目的,配置好这个之后,可以通过命令运行,暂停等操作控制爬虫其他的就不说了,这个用的也不多,我们需要做的就是将它启动就可以了...启动Scrapyd服务切换到qiushi爬虫项目目录下,Scrapy爬虫项目需要进入爬虫目录,才能执行命令 ?...配置Gerapy 上述都配置完毕之后,就可以进行Gerapy配置了,其实Scrapyd的功能远不止上述那么少,但是是命令操作的,所以不友好, Gerapy可视化的爬虫管理框架,使用时需要将Scrapyd...在Gerapy添加爬虫项目上述都配置之后,我们就可以配置爬虫项目了,通过点点点的方式,就可以运行爬虫了点击主机管理-->创建,ip是Scrapyd服务的主机,端口是Scrapyd的端口,默认6800...总结上述以入门的方式解决了安排了以下如何通过Gerapy + Scrpyd + Scrapy可视化部署爬虫。

1.7K1 0

攻击Scrapyd爬虫

思考，作为一个Web服务，如果要调用scrapy爬虫爬取信息，无非有两种方法：直接命令行调用scrapy 通过scrapyd提供的API进行调用那么，如何分辨目标使用了哪种方法调用scrapy呢？...方法也很容易想到：我们可以尝试探测本地或内网中是否有开启scrapyd服务的端口。...0x02 如何攻击scrapyd 一顿信息搜集后，目标整个工作流程就清晰了：用户输入的URL被交给部署在scrapyd上的爬虫进行爬取，爬虫调用了Chrome渲染页面，并将结果中的链接返回给用户。...列出一个项目下所有spider，spider这个概念是scrapy框架中的，一个scrapy开发的爬虫可以有多个spider /listjobs.json 列出所有任务，包括正在进行的、已完成的、等待执行的三个状态...另外，经常会有人在运行爬虫的时候会设置--no-sandbox、--disable-web-security等危险选项，这也给攻击者提供了很多便利，我建议利用普通用户权限启动浏览器爬虫，以避免使用这些不安全的选项

1.1K4 1

ScrapydWeb：爬虫管理平台的使用

一、简介 Scrapy 开源框架是 Python 开发爬虫项目的一大利器，而 Scrapy 项目通常都是使用 Scrapyd 工具来部署，Scrapyd 是一个运行 Scrapy 爬虫的服务程序，提供了一系列...(如需同时启动大量爬虫任务，则需调整 Scrapyd 配置文件的 max-proc 参数) 支持在 Scrapyd server 集群上一键启动分布式爬虫。...六、日志分析和可视化如果在同一台主机运行 Scrapyd 和 ScrapydWeb，建议设置 SCRAPYD_LOGS_DIR 和 ENABLE_LOGPARSER，则启动 ScrapydWeb 时将自动运行...，邮件正文包含当前爬虫任务的统计信息。...九、使用总结 1.业务需求 Scrapydweb 已基本满足了公司绝大多部分的爬虫部署监控需求，如果超出 Scrapydweb 的功能范围需另行深度定制。

3.6K2 1

Python爬虫之scrapyd部署scrapy项目

scrapyd部署scrapy项目学习目标了解 scrapyd的使用流程 ---- 1. scrapyd的介绍 scrapyd是一个用于部署和运行scrapy爬虫的程序，它允许你通过JSON API...来部署爬虫项目和控制爬虫运行，scrapyd是一个守护进程，监听爬虫的运行和请求，然后启动进程来执行它们所谓json api本质就是post请求的webapi 2. scrapyd的安装 scrapyd...启动scrapyd服务在scrapy项目路径下启动scrapyd的命令：sudo scrapyd 或 scrapyd 启动之后就可以打开本地运行的scrapyd，浏览器中访问本地6800端口可以查看...或scrapyd，启动scrapyd服务；或以后台进程方式启动nohup scrapyd > scrapyd.log 2>&1 & 部署scrapy爬虫项目scrapyd-deploy -p myspider...启动爬虫项目中的一个爬虫curl http://localhost:6800/schedule.json -d project=myspider -d spider=tencent ----

2.2K3 0

如何简单高效地部署和监控分布式爬虫项目

API 来控制爬虫，感觉命令行操作太麻烦，希望能够通过浏览器直接部署和运行项目专业用户：有 N 台云主机，通过 Scrapy-Redis 构建分布式爬虫希望集成身份认证希望在页面上直观地查看所有云主机的运行状态...希望能够自由选择部分云主机，批量部署和运行爬虫项目，实现集群管理希望自动执行日志分析，以及爬虫进度可视化希望在出现特定类型的异常日志时能够及时通知用户，包括自动停止当前爬虫任务二、动图预览集群多节点部署项目和运行爬虫...：三、安装和配置 1、请先确保所有主机都已经安装和启动 Scrapyd，如果需要远程访问 Scrapyd，则需将 Scrapyd 配置文件中的 bind_address 修改为 bind_address...Scrapy log 文件并生成 Stats 页面爬虫进度可视化八、邮件通知基于后台定时读取和分析 Scrapy log 文件，ScrapydWeb 将在满足特定触发器时发送通知邮件，邮件正文包含当前运行任务的统计信息...LOG_IGNORE_TRIGGER_FORCESTOP = False 以上示例代表：当发现3条或3条以上的 critical 级别的 log 时，ScrapydWeb 自动停止当前任务，如果当前时间在邮件工作时间内

1.1K4 1

基于Celery的分布式通用爬虫管理平台Crawlab

[image] 节点节点其实就是Celery中的Worker。一个节点运行时会连接到一个任务队列（例如Redis）来接收和运行任务。...运行爬虫部署爬虫之后，你可以在"爬虫详情"页面点击"Run"按钮来启动爬虫。一个爬虫任务将被触发，你可以在任务列表页面中看到这个任务。任务任务被触发并被节点执行。...每一个节点需要启动Flask应用来支持爬虫部署。运行python manage.py app或python ./bin/run_app.py来启动应用。...在你的爬虫程序中，你需要将CRAWLAB_TASK_ID的值以task_id作为可以存入数据库中。这样Crawlab就直到如何将爬虫任务与抓取数据关联起来了。...Crawlab使用起来很方便，也很通用，可以适用于几乎任何主流语言和框架。它还有一个精美的前端界面，让用户可以方便的管理和运行爬虫。

2.7K0 0

《Learning Scrapy》（中文版）第11章 Scrapyd分布式抓取和实时分析

为了这么做，我们会使用一个Scrapy中间件，我们还会使用Scrapyd，一个用来管理远程服务器爬虫的应用。它可以让我们像第6章那样进行抓取。...如果弹性对你十分重要，你就得搭建一个监督系统和分布式排队方案（例如，基于Kafka或RabbitMQ），可以重启失败的任务。修改爬虫和中间件为了搭建这个系统，我们要稍稍修改爬虫和中间件。...使用相同的中间件，使系统启动时就可以将URL分批我们尽量用简明的方式来完成这些工作。理想状态下，整个过程应该对底层的爬虫代码简洁易懂。这是一个底层层面的要求，通过破解爬虫达到相同目的不是好主意。...总结一下，DISTRIBUTED_START_URL设置中的批次URL会被发送到scrapyds，scrapyds上面运行着相同的爬虫。很明显，我们需要使用这个设置以启动start_URL。...从settings启动URL 中间件还提供了一个process_start_requests()方法，使用它可以处理爬虫提供的start_requests。

1.1K2 0

Scrapy入门到放弃07：爬虫的远程启停、监控

在我们以往开发的爬虫中，不论是Java的Jsoup，还是Python的requests，启动方式和普通的程序没什么两样，都是本地运行。...要部署一个 Scrapy 项目，也可以不通过scrapyd，只要项目文件放在projects文件夹中即可。方式主要有以下三种：将本地 Scrapy 项目直接移动或复制到项目文件夹。...通过软连接将项目链接到项目文件夹（Linux、Mac下使用ln命令，使用mklink命令）这里我将本地的scrapy项目压缩成zip格式，上传。...任务管理支持设置定时任务，进入任务管理菜单，新建定时任务，比如新建一个crontab模式，实现每分钟运行一次等场景。点击编辑可以修改定时任务。...定时任务结语本篇文章主要主要讲述了scrapy项目，在scrapyd和genrapy的加持下，最终实现界面化操作。这也是我觉得scrapy生态要优于原生爬虫的原因之一。

9901 0

Python3网络爬虫实战-12、部署相

如果想要大规模抓取数据，那么一定会用到分布式爬虫，对于分布式爬虫来说，我们一定需要多台主机，每台主机多个爬虫任务，但是源代码其实只有一份。...对于 Scrapy 来说，它有一个扩展组件叫做 Scrapyd，我们只需要安装 Scrapyd 即可远程管理 Scrapy 任务，包括部署源码、启动任务、监听任务等操作。...通过简单的命令即可启动运行。...以上便是 Docker 的安装方式说明。 Scrapyd的安装 Scrapyd 是一个用于部署和运行 Scrapy 项目的工具。...后台运行由于 Scrapyd 是一个纯 Python 项目，在这里可以直接调用 scrapyd 来运行，为了使程序一直在后台运行，Linux 和 Mac 可以使用如下命令： (scrapyd > /dev

7892 0

学会运用爬虫框架 Scrapy (五) —— 部署爬虫

本文是 Scrapy 爬虫系列的最后一篇文章。主要讲述如何将我们编写的爬虫程序部署到生产环境中。我们使用由 scrapy 官方提供的爬虫管理工具 scrapyd 来部署爬虫程序。...1 为什么使用 scrapyd? 一是它由 scrapy 官方提供的，二是我们使用它可以非常方便地运用 JSON API来部署爬虫、控制爬虫以及查看运行日志。...再这之后，scrapyd 会以守护进程的方式存在系统中，监听爬虫地运行与请求，然后启动进程来执行爬虫程序。 2.2 安装 scrapyd 使用 pip 能比较方便地安装 scrapyd。 ?...2.3 启动 scrapyd 在终端命令行下以下命令来启动服务： ? 启动服务结果如下： ? scrapyd 也提供了 web 的接口。方便我们查看和管理爬虫程序。...ubuntu/Mac 用户直接使用命令行安装即可。开启爬虫 schedule 在爬虫项目的根目录下，使用终端运行以下命令： ? 成功启动爬虫结果如下： ? 取消爬虫 ? 列出项目 ?

3634 0

经验拾忆（纯手工）=> Scrapyd

部署爬虫项目安装scrapyd服务 pip install scrapyd 启动scrapyd服务 scrapyd # 就这一条shell命令即可启动服务如果你相对爬虫服务做一些配置...等，可修改如下配置文件）： vi /usr/lib/python3.6/site-packages/scrapyd/default_scrapyd.conf 将爬虫程序推送到服务中首先确保你的爬虫程序单测可以无误运行...接下来就是开启调用的环节： scrapyd采用 "请求接口" 的方式取开启或终止爬虫：查看爬虫状况： curl http://23.23.xx.xx:6800/daemonstatus.json...39.107.xx.xx:6800') # 先获取 scrapyd远程服务的客户端连接 class SpiderView(View): # 我使用的是 Django的 CBV...def get(self, request): state_dict = scrapyd.list_jobs('Baidu') # 列出项目所有爬虫任务，返回字典

1K1 0

功能比Scrapy强，却使用最方便的Gerapy分布式爬虫管理框架

安装非常简单，只需要运行 pip3 命令即可： pip3 install gerapy 安装完成之后我们就可以使用 gerapy 命令了，输入 gerapy 便可以获取它的基本使用方法： gerapy...接着我们只需要再运行命令启动服务就好了： gerapy runserver 这样我们就可以看到 Gerapy 已经在 8000 端口上运行了。全部的操作流程截图如下： ?...监控任务部署完毕之后就可以回到主机管理页面进行任务调度了，任选一台主机，点击调度按钮即可进入任务管理页面，此页面可以查看当前 Scrapyd 服务的所有项目、所有爬虫及运行状态： ?...我们可以通过点击新任务、停止等按钮来实现任务的启动和停止等操作，同时也可以通过展开任务条目查看日志详情： ? 另外我们还可以随时点击停止按钮来取消 Scrapy 任务的运行。...我们可以点击项目页面的右上角的创建按钮，增加一个可配置化爬虫，接着我们便可以在此处添加提取实体、爬取规则、抽取规则了，例如这里的解析器，我们可以配置解析成为哪个实体，每个字段使用怎样的解析方式，如 XPath

3.2K4 0

爬虫框架Scrapy(三)

简单的说分布式就是不同的节点（服务器，ip不同）共同完成一个任务。...通过 scrapy crawl spider启动爬虫后，向rediskey放入一个或多个起始url（lpush或rpush都可以），才能够让scrapyredis爬虫运行。...3.爬虫部署 3.1 scrapyd的安装 scrapyd服务: pip install scrapyd scrapyd客户端: pip install scrapyd-client 3.2 启动scrapyd...服务 1.在scrapy项目路径下启动scrapyd的命令： sudo scrapyd 或 scrapyd。...2.启动之后就可以打开本地运行的scrapyd，浏览器中访问本地6800端口可以查看scrapyd的监控界面。 3.点击job可以查看任务监控界面。

9161 0

分布式爬虫的部署之Gerapy分布式管理

我们可以通过Scrapyd-Client将Scrapy项目部署到Scrapyd上，并且可以通过Scrapyd API来控制Scrapy的运行。那么，我们是否可以做到更优化？...使用Scrapyd API可以控制Scrapy任务的启动、终止等工作，但很多操作还是需要代码来实现，同时获取爬取日志还比较烦琐。...如果我们有一个图形界面，只需要点击按钮即可启动和终止爬虫任务，同时还可以实时查看爬取日志报告，那这将大大节省我们的时间和精力。所以我们的终极目标是如下内容。...Gerapy是一个基于Scrapyd、Scrapyd API、Django、Vue.js搭建的分布式爬虫管理框架。接下来将简单介绍它的使用方法。一、准备工作请确保已经正确安装好了Gerapy。...点击调度即可进入任务管理页面，可以查看当前主机所有任务的运行状态，如下图所示。 ? 我们通过点击新任务、停止等按钮来实现任务的启动和停止等操作，同时也可以通过展开任务条目查看日志详情，如下图所示。

1.1K7 2

Python爬虫从入门到放弃（二十一）之 Scrapy分布式部署

这里其实可以通过scrapyd,下面是这个scrapyd的github地址：https://github.com/scrapy/scrapyd 当在远程主机上安装了scrapyd并启动之后，就会再远程主机上启动一个...scrapy以及scrapyd等包，保证所要运行的爬虫需要的包都完成安装，这样我们就有了两台linux，包括上篇文章中我们已经有的linux环境在这里有个小问题需要注意，默认scrapyd启动是通过scrapyd...关于部署如何通过scrapyd部署项目，这里官方文档提供一个地址：https://github.com/scrapy/scrapyd-client，即通过scrapyd-client进行操作这里的scrapyd-client...下面我们启动的三次就表示我们启动了三个任务，也就是三个调度任务来运行zhihu这个爬虫 zhaofandeMBP:zhihu_user zhaofan$ curl http://192.168.1.9...这里出错的原因就是我上面忘记在ubuntu虚拟机安装scrapy_redis以及pymongo模块，进行 pip install scrapy_redis pymongo安装后重新启动,就可以看到已经在运行的任务

9688 0

分布式爬虫的部署之Scrapyd分布式部署

一、了解Scrapyd Scrapyd是一个运行Scrapy爬虫的服务程序，它提供一系列HTTP接口来帮助我们部署、启动、停止、删除爬虫程序。...Scrapyd支持版本管理，同时还可以管理多个爬虫任务，利用它我们可以非常方便地完成Scrapy爬虫项目的部署任务调度。二、准备工作请确保本机或服务器已经正确安装好了Scrapyd。...三、访问Scrapyd 安装并运行Scrapyd之后，我们就可以访问服务器的6800端口，看到一个WebUI页面。...以上接口是Scrapyd所有的接口。我们可以直接请求HTTP接口，即可控制项目的部署、启动、运行等操作。五、Scrapyd API的使用以上的这些接口可能使用起来还不是很方便。...没关系，还有一个Scrapyd API库对这些接口做了一层封装，其安装方式可以参考第1章的内容。下面我们来看看Scrapyd API的使用方法。

1.6K5 0

小程序开发（一）：使用scrapy爬虫

运行下，发现数据全部存到了数据库中。...scrapy爬虫项目的部署 scrapy爬虫项目的部署，我们使用官方的scrapyd即可，使用方法也比较简单，在服务器上安装scrapyd并且启动即可，然后在本地项目中配置deploy的路径，本地安装scrapy-client...scrapyd提供了一些api接口来查看项目爬虫情况，以及执行或者停止执行爬虫。这样我们就很方便的调这些接口来管理我们的爬虫任务了。...注意点：如何部署scrapyd到服务器如何设置scrapyd为系统后台服务及系统启动项 NEXT 下一篇，我们会介绍并且使用很火的一个nodejs后台api库 - hapijs。...完成小程序所需要的所有接口的开发，以及使用定时任务执行爬虫脚本。

9971 0

Scrapyd发布爬虫的工具

Scrapyd Scrapyd是部署和运行Scrapy.spider的应用程序。它使您能够使用JSON API部署（上传）您的项目并控制其spider。...Scrapyd-client Scrapyd-client是一个专门用来发布scrapy爬虫的工具，安装该程序之后会自动在python目录\scripts安装一个名为scrapyd-deploy的工具...（其实打开该文件，可以发现它是一个类似setup.py的python脚本，所以可以通过python scrapyd-deploy的方式运行）下载安装 pip install scrapyd-client...project=myproject #获取scrapyd服务器上的所有任务清单，包括已结束，正在运行的，准备启动的。...3、可以远程启动、停止、删除，正是因为这一点，所以scrapyd也是分布式爬虫的解决方案之一

8582 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云