开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

scrapy脚本在shell中运行良好，但在crawler上不起作用

Scrapy是一个基于Python的开源网络爬虫框架，用于快速、高效地抓取和提取网页数据。它提供了强大的功能和灵活的配置选项，使开发者能够轻松地构建和管理爬虫程序。

问题描述中提到，Scrapy脚本在shell中运行良好，但在crawler上不起作用。这可能是由于以下几个原因导致的：

环境配置问题：在crawler上运行Scrapy脚本时，可能存在环境配置不一致的问题。确保crawler上安装了正确版本的Python和Scrapy，并且所有依赖项都已正确安装。
网络访问限制：crawler可能存在网络访问限制，导致无法正常访问目标网站。可以尝试使用代理服务器或者调整网络设置来解决这个问题。
爬虫配置问题：在crawler上运行Scrapy脚本时，可能需要调整爬虫的配置。检查爬虫的配置文件，确保目标网站的URL、请求头、请求参数等信息正确配置。
日志和错误处理：在crawler上运行Scrapy脚本时，可能需要配置日志和错误处理机制，以便及时发现和解决问题。可以通过设置日志级别、保存错误日志文件等方式来进行调试和排查。

总结起来，解决Scrapy脚本在crawler上不起作用的问题，需要仔细检查环境配置、网络访问限制、爬虫配置以及日志和错误处理等方面的问题。根据具体情况进行调试和排查，以确保Scrapy脚本能够在crawler上正常运行。

腾讯云相关产品推荐：

云服务器（CVM）：提供弹性计算能力，可满足不同规模和需求的应用场景。详情请参考：腾讯云云服务器
云数据库MySQL版（CDB）：提供高可用、可扩展的MySQL数据库服务，适用于各种应用场景。详情请参考：腾讯云云数据库MySQL版
云存储（COS）：提供安全、稳定、低成本的对象存储服务，适用于海量数据存储和访问。详情请参考：腾讯云云存储
人工智能平台（AI Lab）：提供丰富的人工智能算法和模型，帮助开发者快速构建和部署AI应用。详情请参考：腾讯云人工智能平台
物联网套件（IoT Hub）：提供全面的物联网解决方案，包括设备接入、数据管理、消息通信等功能。详情请参考：腾讯云物联网套件

相关搜索:Glassfish取消部署在Windows上不起作用，但在Linux上运行良好使用require导入，在windows上运行良好，但在ubuntu上不起作用 jQuery更改事件在PC上运行良好，但在iOS上不起作用垂直对齐在Chrome上运行良好，但在Firefox上不起作用垂直滚动在iOS上不起作用，但在安卓上运行良好 Scrapy Crawler在shell中工作，但不在代码中工作如何修复在Edge上运行良好但在IE上不起作用的CSS 在pgadmin中运行良好，但在java代码中不起作用 Shell脚本手动运行良好，但不能在cron中运行 Django -图像滚动功能在localhost上不起作用，但在127.0.0.1上运行良好 cURL在终端中运行良好，但在脚本中出现500错误而死 Node.js脚本在需要时挂起，但在REPL中运行良好 CSS在桌面和安卓上的chrome上运行良好，但在safari上不起作用 Javascript在edge中不起作用，但在Firefox和Chrome中运行良好 Xpath在浏览器控制台中运行良好，但在Python Scrapy中返回NULL NSClassFromString在OC中运行良好，但在Swift中崩溃 Ruby脚本在命令行上运行良好，但在Jenkins上运行失败在mysql中运行shell脚本在shiny中运行shell脚本 SQL脚本在本地sqldeveloper中运行良好，但在通过SQLPLUS运行时在IST环境中运行失败

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

使用Scrapy从HTML标签中提取数据

要检索链接内所有图像的资源地址，请使用： response.xpath("//a/img/@src") 您可以尝试使用交互式的Scrapy shell：在您的网页上运行Scrapy shell： scrapy...信息处理程序使用crawler.signals.connect()方法进行设置，crawler对象在Spider类中的from_crawler()方法中可用。...再次运行Spider爬虫，您将在Scrapy统计信息之前看到无效链接的详细信息。命令行的输入起始URL网址初始的URL网址在spider爬虫的源代码中是硬编码的。...Spider程序 Scrapy在6023端口上提供telnet接口以监控正在运行的spider爬虫程序。...telnet会话是一个您可以在其中执行Scrapy公有对象上的方法的Python shell脚本。

10.2K2 0

关于Scrapy爬虫项目运行和调试的小技巧（下篇）

四、利用Scrapy shell进行调试通常我们要运行Scrapy爬虫程序的时候会在命令行中输入“scrapy crawl crawler_name”，细心的小伙伴应该知道上篇文章中创建的main.py...Scrapy给我们提供了一种shell模式，让我们可以在shell脚本之下获取整个URL对应的网页源码。...在命令行中进行运行，其语法命令是“scrapy shell URL”，URL是指你需要抓取的网页网址或者链接，如下图所示。...通过shell脚本这种方式可以极大的提高调试的效率，具体的调试方法同爬虫主体文件中的表达式语法一致。举个栗子，如下图所示。...将两个Xpath表达式所对应的选择器放到scrapy shell调试的脚本下，我们可以很清楚的看到提取的目标信息，而且省去了每次运行Scrapy爬虫程序的重复步骤，提高了开发效率。

8044 0

关于Scrapy爬虫项目运行和调试的小技巧（下篇）

四、利用Scrapy shell进行调试通常我们要运行Scrapy爬虫程序的时候会在命令行中输入“scrapy crawl crawler_name”，细心的小伙伴应该知道上篇文章中创建的main.py...Scrapy给我们提供了一种shell模式，让我们可以在shell脚本之下获取整个URL对应的网页源码。...在命令行中进行运行，其语法命令是“scrapy shell URL”，URL是指你需要抓取的网页网址或者链接，如下图所示。...通过shell脚本这种方式可以极大的提高调试的效率，具体的调试方法同爬虫主体文件中的表达式语法一致。举个栗子，如下图所示。...image.png 将两个Xpath表达式所对应的选择器放到scrapy shell调试的脚本下，我们可以很清楚的看到提取的目标信息，而且省去了每次运行Scrapy爬虫程序的重复步骤，提高了开发效率。

5252 0

python中命令行的应用实践

起源小k是一家互联网公司的爬虫(cv)工程师，他在这家公司写过大大小小无数个爬虫脚本。...：图片内置命令行根据源码可以看到，scrapy内置了commands模块，该模块下包含了所有的命令行，比如crawl、list、shell等等，这些命令行都是通过scrapy.commands模块下的...crawler_process：scrapy中的核心对象，可以通过该对象来获取spider_loader、settings等等。 run：命令行的主要逻辑，可以在该方法中实现命令行的主要逻辑。...self.crawler_process.start() 接下来我们需要将该命令行注册到scrapy中，我们首先新建commands包，然后将上面编写的runall.py放到该包下。...这种command-script的方式，在pip package的模式下只需要setup.py中配置一下就可以了，但是我们这里是纯python项目，所以我们需要手动配置一下。

5796 0

Learning Scrapy（一）

由社区维护的具有良好架构的代码　　Scrapy要求你用标准的方式去组织你的代码，所以你在与他人合作时，别人不用苦苦研究你那拥有奇淫技巧的爬虫。 4....scrapy shell（scrapy终端）是一个交互式的终端，在未启动spider的情况下尝试及调试爬取代码，主要测试Xpath和CSS表达式等，查看他们的工作方式以及从爬取的网页中提取数据，该终端在开发和调试...spider时发挥着巨大的作用。...输入：scrapy shell 'http://www.cnblogs.com/ybjourney/' --nolog，会显示相应的各个对象的值，进而在In [1]:中输入：sel.xpath('//div...首先，在项目的根目录下根据basic模板创建一个名为basic的spider，后面的web指的是spider的可运行的域名： scrapy genspider –t basic basic web 在本项目中的命令是

7282 0

【Python环境】Scrapy爬虫轻松抓取网站数据

这样以来，其实用脚本语言写一个 ad hoc 的 Crawler 来完成这个任务也并不难，不过今天的主角是 Scrapy ，这是一个用 Python 写的 Crawler Framework ，简单轻巧...里面有个 scrapy-ctl.py 是整个项目的控制脚本，而代码全都放在子目录 blog_crawl 里面。...另外，定义一个“全局”变量 SPIDER ，它会在 Scrapy 导入这个 module 的时候实例化，并自动被 Scrapy 的引擎找到。这样就可以先运行一下 crawler 试试了： ..../scrapy-ctl.py shell http://mindhacks.cn 它会启动 crawler ，把命令行指定的这个页面抓取下来，然后进入 shell ，根据提示，我们有许多现成的变量可以用...BlogCrawlItem 是 Scrapy 自动帮我们定义好的一个继承自ScrapedItem 的空类，在 items.py 中，这里我加了一点东西： from scrapy.item import

1.7K10 0

scrapy ---- 命令行工具

F:\wamp\www\scrapy\example>scrapy list baidu google view: 此命令会打开浏览器，查看源代码在浏览器中具体显示效果。...F:\wamp\www\scrapy\example>scrapy view https://bangumi.bilibili.com/33/ parse: 在工程中使用固定的parse函数解析某个页面...F:\wamp\www\scrapy>scrapy shell https://bangumi.bilibili.com/33/ . . ...., etc) [s] crawler [s] item {} [s] request...View response in a browser runspider: 运行自包含的spider。

1.8K0 0

scrapy 快速入门

我们可以使用下面的命令启动Scrapy shell并提取百思不得姐段子的内容，成功运行之后会打开一个交互式shell，我们可以进行交互式编程，随时查看代码的运行结果。...pip install pypiwin32 运行成功之后在终端中看到以下内容，列举了在交互式shell中可以进行的操作。...下面是提取百思不得姐段子的简单例子，在交互环境中执行之后，我们就可以看到提取出来的数据了。...在已经生成好的项目中，我们使用项目相关的命令来运行爬虫。...自Scrapy1.2 起，增加了FEED_EXPORT_ENCODING属性，用于设置输出编码。我们在settings.py中添加下面的配置即可。

1.3K5 0

Scrapy快速入门，爬取糗事百科段子

Scrapy Shell 我们想要在爬虫中使用xpath、beautifulsoup、正则表达式、css选择器等来提取想要的数据。但是因为scrapy是一个比较重的框架。每次运行起来都要等待一段时间。...打开Scrapy Shell：打开cmd终端，进入到Scrapy项目所在的目录，然后进入到scrapy框架所在的虚拟环境中，输入命令scrapy shell [链接]。...就会进入到scrapy的shell环境中。在这个环境中，你可以跟在爬虫的parse方法中一样使用了。...需要在终端，进入项目所在的路径，然后scrapy crawl [爬虫名字]即可运行指定的爬虫。如果不想每次都在命令行中运行，那么可以把这个命令写在一个文件中。...以后就在pycharm中执行运行这个文件就可以了。

3354 0

Scrapy源码剖析（二）Scrapy是如何运行起来的？

例如，你觉得默认的调度器功能不够用，那么你就可以按照它定义的接口标准，自己实现一个调度器，然后在自己的配置文件中，注册自己的调度器类，那么 Scrapy 运行时就会加载你的调度器执行了，这极大地提高了我们的灵活性...所以，只要在默认配置文件中配置的模块类，都是可替换的。检查运行环境是否在项目中初始化完配置之后，下面一步是检查运行环境是否在爬虫项目中。...我们知道，scrapy 命令有的是依赖项目运行的，有的命令则是全局的。这里主要通过就近查找 scrapy.cfg 文件来确定是否在项目环境中，主要逻辑在 inside_project 方法中。...(closest_scrapy_cfg()) 运行环境是否在爬虫项目中的依据就是能否找到 scrapy.cfg 文件，如果能找到，则说明是在爬虫项目中，否则就认为是执行的全局命令。...总结总结一下，Scrapy 在真正运行前，需要做的工作包括配置环境初始化、命令类的加载、爬虫模块的加载，以及命令类和参数解析，之后运行我们的爬虫类，最终，这个爬虫类的调度交给引擎处理。

1.1K3 0

毕业设计（一）：爬虫框架scrapy

Scrapy命令在命令行中输入scrapy，会直接显示常用的命令： ? 1、scrapy startproject Demo（项目名）：创建一个新的项目。...4、scrapy list：查看所有的爬虫。 5、scrapy fetch ：打印响应。 6、scrapy shell [url]：调试shell。...类方法： from_crawler(cls, crawler, *args, **kwargs)：类方法，用来实例化对象，将它绑定到spider对象。...start_requsets(self)：生成器，返回由URL构造的Request，作为入口，在爬虫运行的时候自动运行。...close(self, reason)：爬虫关闭时自动运行。

8732 0

Python 爬虫之Scrapy《中》

Scrapy Shell 主要用于测试Scrapy项目中命令是否生效，可在bash下直接执行，这里我们通过使用Scrapy Shell来验证学习选择器提取网页数据，使用的是在windows下 cmd 命令行下执行此命令...scrapy shell http://lab.scrapyd.cn/page/1/ 来演示。...2 Scrapy Shell 提取数据演示 win+r 输入 cmd 回车—》进入到windows 交互命令行界面，输入： C:\Users\tdcengineer>scrapy version d...objects: [s] scrapy scrapy module (contains scrapy.Request, scrapy.Selector, etc) [s] crawler ] 总结：今天的分享主要是讲到了如何解析页面元素并提取出来，使用了非常多的方式去获取，在“Python 爬虫之Scrapy《上》”文章里面也是用了本文中提到的提取方式，大家可以回过来去再看看。

8521 0

006：开启Scrapy爬虫项目之旅

完成之后我们可以通过python shell命令行来实际使用一下Items，更深入的理解Items。首先我们需要打开python shell，（可以直接使用IDLE的shell界面）。...在Scrapy中，如果想批量运行爬虫文件，常见的两种方法： 1、使用CrawProcess实现 2、使用修改craw源码+自定义命令的方式实现 CrawProcess实现：这种方法在官方文档里面有说明...官方文档在同一个进程中运行多个蜘蛛默认情况下，Scrapy在您运行时为每个进程运行一个蜘蛛。但是，Scrapy支持使用内部API为每个进程运行多个蜘蛛。...scrapy crawl 这是一个同时运行多个蜘蛛的示例： import scrapy from scrapy.crawler import CrawlerProcess class MySpider1....在Python的安装目录下找到 D:\python36\Lib\site-packages\scrapy\commands\crawl.py，我们点击进去看看可以发现蜘蛛通过，里面的run()方法运行

8082 0

爬虫快速入门

创建项目创建爬虫项目 scrapy startproject project 在抓取之前，你需要新建一个Scrapy工程 neo@MacBook-Pro ~/Documents % scrapy startproject...'url': link.css('a.ulink::attr(href)').extract() } pass 运行爬虫.../>{'name': ['Netkiller Shell 手札'], 'url': ['...../shell/index.html']}2017-09-08 11:42:31 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.netkiller.cn...Item Item 在 scrapy 中的类似“实体”或者“POJO”的概念，是一个数据结构类。

7495 0

PYTHON网站爬虫教程

Python Web Crawler教程 ?...本教程包括创建一个新的Scrapy / Python项目，使用Scrapy为脚本建立通信，创建内容提取代码，启动Scrapy反应器服务以及在Scrapy中创建最终的蜘蛛。 ?...image 希望漫步：网络刮痧与Scrapy 这是一个解释良好的教程，关于在Scrapy库的帮助下在Python中构建网站爬虫。这包括蜘蛛解剖学和Scrapy安装的代码。...image 使用Python索引Solr中的Web站点这是Martijn Koster关于在Python中构建Web爬虫以在Scrapy库的帮助下为网站编制索引的教程。...这包括创建新Python项目，添加Scrapy，构建爬虫和存储数据（在本例中为Star Wars卡的图像）的说明。 ?

1.9K4 0

Scrapy源码（2）——爬虫开始的地方

Scrapy运行命令一般来说，运行Scrapy项目的写法有，（这里不考虑从脚本运行Scrapy） Usage examples: $ scrapy crawl myspider [ ... myspider...，Scrapy运行文件是cmdline.py文件里面的execute()函数，下面学习下这个函数在做什么。...settings module中。...爬虫运行都有用使用到CrawlerProcess，想要深入了解可以去看看源码 scrapy/scrapy/crawler.py """ A class to run multiple scrapy...总结简单来说，有这么几步：读取配置文件，应用到爬虫中把所有的命令类转换名称与实例字典初始化CrawlerProcess实例，运行爬虫 (看的头疼，好多函数名记不住)

9993 0

Python Scrapy框架之Selector选择器

对用爬取信息的解析，我们在之前已经介绍了正则re、Xpath、Beautiful Soup和PyQuery。而Scrapy还给我们提供自己的数据解析方法，即Selector（选择器）。...2 Scrapy shell 我们借助于Scrapy shell来模拟请求的过程，然后把一些可操作的变量传递给我们，如request、response等。..., etc) [s] crawler [s] item {} [s] request...在xpath（）后使用extract_first（）可以返回第一个元素结果。使用scrapy shell 爬取"淘宝网"->"商品分类"->"特色市场"的信息。...注：css中获取属性：a.css("::attr(href)").extract_first() END

1.1K2 0

Python:CrawlSpiders

通过下面的命令可以快速创建 CrawlSpider模板的代码： scrapy genspider -t crawl tencent tencent.com 上一个案例中，我们通过正则表达式，制作了新的...(self, crawler): super(CrawlSpider, self).set_crawler(crawler) self....restrict_xpaths：使用xpath表达式，和allow共同作用过滤链接。 rules 在rules中包含一个或多个Rule对象，每个Rule对爬取网站的动作定义了特定操作。...(用来过滤request) 爬取规则(Crawling rules) 继续用腾讯招聘为例，给出配合rule使用CrawlSpider的例子: CrawlSpider 版本那么，scrapy shell...例如，执行 print "hello" ，其将会在Scrapy log中显示。

3353 0

一个小时多点，完成scrapy爬取官方网站新房的数据

url和建面面积匹配出来，scrapy shell https://bj.fang.lianjia.com/loupan进入shell调试。...详情页调试下面就是详情页了，scrapy shell https://bj.fang.lianjia.com/loupan/p_zjtfbkrhf/?...就是耐心的通过scrapy shell 调试。这里花费了有半个小时。 ? ? ? 最后，自己看代码。...在setting中开启Pipeline。...ITEM_PIPELINES = { 'lianjia.pipelines.LianjiaPipeline': 300, } 运行，开一个main.py，scrapy crawl spider -

1.3K2 0

一个Scrapy项目下的多个爬虫如何同时运行？

我们知道，如果要在命令行下面运行一个 Scrapy 爬虫，一般这样输入命令： scrapy crawl xxx 此时，这个命令行窗口在爬虫结束之前，会一直有数据流动，无法再输入新的命令。...我们也知道，可以通过两条Python 代码，在 Python 里面运行 Scrapy 爬虫： from scrapy.cmdline import execute execute('scrapy crawl...那么，有没有什么办法，在一个命令窗口里面，同时运行同一个 Scrapy 项目下面的多个爬虫呢？...('爬虫名2') crawler.crawl('爬虫名3') crawler.start() 使用这种方法，可以在同一个进程里面跑多个爬虫。...回到我们的例子中，修改 main.py代码为： from scrapy.crawler import CrawlerProcess from scrapy.utils.project import get_project_settings

2.6K1 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭