构建了Scrapy爬虫，但它不是跟随链接

Scrapy是一个开源的Python框架，用于快速、高效地构建网络爬虫。它提供了一套强大的工具和库，帮助开发者从网页中提取数据，并进行数据处理和存储。

Scrapy爬虫的工作原理是通过定义爬虫规则，指定要爬取的网站和页面，然后Scrapy会自动发送HTTP请求，获取网页内容，并根据规则提取所需的数据。它支持异步处理和并发请求，可以高效地处理大量的网页。

Scrapy的主要特点包括：

快速高效：Scrapy使用异步处理和并发请求，可以快速地爬取大量的网页数据。
灵活可扩展：Scrapy提供了丰富的扩展机制，可以根据需求定制各种功能，如中间件、管道、扩展等。
分布式支持：Scrapy可以与分布式框架结合使用，实现分布式爬取和数据处理。
数据处理和存储：Scrapy提供了方便的数据处理和存储功能，可以将爬取的数据保存到文件、数据库或其他存储介质中。
自动化：Scrapy可以自动处理网页的链接跟随，从而实现自动化的爬取过程。

Scrapy适用于各种场景，包括但不限于：

数据采集：Scrapy可以用于爬取各种类型的数据，如新闻、商品信息、社交媒体数据等。
数据分析和挖掘：Scrapy可以爬取大量的数据，供数据分析和挖掘使用。
监测和监控：Scrapy可以定期爬取网站数据，用于监测和监控网站的变化。
SEO优化：Scrapy可以爬取搜索引擎结果页面，用于SEO优化和竞争对手分析。

对于Scrapy爬虫的构建，可以使用腾讯云的云服务器（CVM）作为爬虫的运行环境，使用腾讯云对象存储（COS）来存储爬取的数据，使用腾讯云数据库（TencentDB）来存储和处理数据。此外，腾讯云还提供了一系列与云计算相关的产品和服务，如云函数（SCF）、云监控（Cloud Monitor）、云安全中心（Security Center）等，可以进一步增强爬虫的功能和安全性。

更多关于腾讯云产品的介绍和详细信息，可以参考腾讯云官方网站：https://cloud.tencent.com/

页面内容是否对你有帮助？

有帮助

没帮助

构建了Scrapy爬虫，但它不是跟随链接

我写了一个简单的爬虫来获取徒步旅行的链接。它似乎根本没有查看URL来抓取站点：from scrapy.spiders import Spider from oregon_hikes_scrapper.item

浏览 11提问于2016-09-02得票数 0

1回答

用Scrapy爬行多个页面

、、、

目标问题->website.com

浏览 2提问于2017-07-17得票数 0

1回答

如何用python多进程检查网页是否存活

、

我有一个urls列表(大约25k)，我正在尝试检查它们是否有效(200个响应)。我想使用Python的多处理库并行执行这些检查。我写了以下代码(主要基于Python文档示例)，但运行速度似乎相当慢。有什么方法可以让这个脚本运行得更快吗？ import time

浏览 0提问于2011-08-06得票数 0

回答已采纳

1回答

如何使用scrapy跟踪延迟加载？

、

我的爬虫遵循正常的链接，但这个似乎不同：页面：https://www.omegawatches.com/de/vintage-watches 后面是https://www.omegawatches.comScrapy将不会跟随该链接。有没有办法让scray自动跟随第1、2、3、4页？

浏览 20提问于2018-12-30得票数 0

1回答

抓取器正在获取相关链接。

、

我已经创建了一个使用scrapy.The爬虫爬虫的网站和抓取链接。**所使用的技术：**Python，Scrapy Error抓取相对urls，因为刮刀器无法抓取网页。我要爬虫只取无源网址。import scrapyclass MySpider(scrapy.Spider): # this is

浏览 2提问于2021-06-29得票数 1

2回答

Schedule scrapy命令scrapy crawl

、、

我已经构建了一个爬虫来抓取和提取匹配固定正则表达式的链接。现在，我想在windows任务调度程序中调度任务，以便它使用命令行提示符scrapy crawl crawlername执行爬虫程序。

浏览 2提问于2014-04-08得票数 3

8回答

Python Scrapy错误。不再支持对多个爬行器运行'scrapy crawl‘

、

我用Scrapy Python写了一个脚本，几个月来一直运行得很好(没有变化)。最近，当我在Windows Powershell中执行脚本时，它引发了下一个错误：..。Running 'scrapy crawl' with more than one spider is no longer supported提前谢谢。

浏览 11提问于2017-02-21得票数 4

1回答

刮伤的DEPTH_PRIORITY不起作用

、、、

我想我的蜘蛛爬虫的start_urls网站完全之前跟踪更深入的网站。 'REACTOR_THREADPOOL_MAXSIZE' : 30,设置: SCHED

浏览 3提问于2016-03-17得票数 1

1回答

刮擦蜘蛛不遵循链接和错误

、、、

我试图写我的第一个网络爬虫/数据提取器使用刮刮，并无法得到它的后续链接。有谁知道我怎样才能让它跟随页面上的链接并消除错误呢？import scrapyfrom wikiCrawler.items import WikicrawlerItemfrom scrapy.spiders import Rule class WikispyderSpider(sc

浏览 2提问于2017-03-29得票数 2

回答已采纳

1回答

使scrapy递归地移动到下一页

、

我正在尝试使用scrapy抓取。我可以成功地抓取页面上的数据，但我也希望能够从其他页面抓取数据。(说下一步的)。crawledLinks.append(link)我得到了正确的信息:来自链接页面的标题，但它根本不是“导航”。如何告诉scrapy导航？

浏览 1提问于2014-11-01得票数 3

3回答

“索引，跟随”和“跟随”的区别是什么？

、、

以下清单有哪些不同之处： <meta name="

浏览 4提问于2018-07-11得票数 6

1回答

scrapy shell在添加第二个爬行器时不显示>>>

、

我使用以下命令创建了一个新的scrapy项目：在爬虫文件夹中，我正在创建我的scrapy类，它包含了抓取数据的所有逻辑。我正在使用Scrapy Shell进行测试。当我创建第一个爬虫时，scrapy shell运行得很好。但在创建第二个爬虫时，scrapy shell不起作用。使用以下命令调用scrapy shell

浏览 2提问于2020-04-08得票数 1

1回答

从一个页面中抓取多篇文章，每篇文章都有单独的href

、

我是个新手，写了我的第一个爬虫，为类似的网站做了一个爬虫。我已经尝试使用规则和链接提取器，但它不能导航到下一页和提取。我得到错误:爬行器错误处理 (referer: None)import scrapyfrom scrapy.linkextractorsimport LinkExtractor class Medical

浏览 1提问于2019-07-09得票数 1

2回答

Scrapy爬虫没有跟随链接来获取新页面

、、、

我正在从一个使用Javascript链接到新页面的页面获取数据。我正在使用Scrapy + splash来获取这些数据，然而，由于某些原因，这些链接没有被遵循。下面是我的爬行器的代码： import scrapy function': None, 'scrapy

浏览 15提问于2019-02-25得票数 2

1回答

http://prntscr.com/o56670 请查看截图我正在使用python 3并在我的终端上使用scrapy。fetch("https://angel.co/adil-wali") 当请求链接时，它以403响应。所以我已经改变和轮换了用户代理和机器人，但仍然显示403响应，所以这次我购买了爬虫计划，但爬虫仍然说523响应您知道为什么在scrapy shell中请求返回403而不是200响应吗？

浏览 5提问于2019-06-22得票数 0

回答已采纳

1回答

scrapy爬虫没有跟随下一个链接

、、、

我正在使用scrapy从意大利国家警察那里收集新闻。我的问题是，即使我有一个规则集来找到“下一步”或意大利语中的"Successiva“按钮并遵循该链接，但刮取器没有遵循”下一步“链接。from scrapy.spiders import Rule, CrawlSpiderfrom scrapy.selectorself, response): # for href in

浏览 0提问于2015-11-10得票数 2

1回答

如何建立我的抓取蜘蛛到一个可执行文件使用py2exe？

、、、

我使用scrapy创建一个项目，并在"spiders“文件夹中添加我自己的爬行器，比如"spider_us.py"，我想构建一个可在其他计算机上执行的可执行文件，而不需要安装scrapy。当我按照py2exe的指示操作时，我在同一个文件夹中创建了一个新文件"Setup.py“，内容如下：import py2exe 然而，它不起作用，因为当我运行我

浏览 1提问于2013-10-18得票数 6

1回答

抓取的限制页不起作用

、

我有一个简单的爬虫爬行网站上的所有链接。我需要基于命令行参数(例如boundary=3)来限制它。我的问题是我无法让CLOSESPIDER_ITEMCOUNT工作。在settings.py中，我添加了EXTENSIONS = {'scrapy.extensions.closespider.CloseSpider': 1}，但它仍然在我的简单网站上抓取所有链接，而不是在import scrapy from scrapy.linkext

浏览 2提问于2020-12-01得票数 1

回答已采纳

1回答

如何在python脚本中使用scrapy的Spider和LinkExtractor？

、、

我找到了一些关于如何从任何网站提取所有可用链接的主题的答案，所有这些都是关于scrapy模块的。ALso复制了其中一个代码示例： from scrapy import Spider class MySpider

浏览 18提问于2019-06-16得票数 0

回答已采纳

1回答

如何将运行scrapy的默认设置设置为python脚本？

、、、

当然，我必须导入库并安装依赖项，但我希望避免使用scrapy crawl xyz启动爬行过程。这是myScrapy.py的代码from scrapy.utils.project import get_project_settingsfrom scrapy.spiders import CrawlSpider, Rulefro

浏览 4提问于2016-11-18得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

构建了Scrapy爬虫，但它不是跟随链接

相关·内容

构建了Scrapy爬虫，但它不是跟随链接

用Scrapy爬行多个页面

如何用python多进程检查网页是否存活

如何使用scrapy跟踪延迟加载？

抓取器正在获取相关链接。

Schedule scrapy命令scrapy crawl

Python Scrapy错误。不再支持对多个爬行器运行'scrapy crawl‘

刮伤的DEPTH_PRIORITY不起作用

刮擦蜘蛛不遵循链接和错误

使scrapy递归地移动到下一页

“索引，跟随”和“跟随”的区别是什么？

scrapy shell在添加第二个爬行器时不显示>>>

从一个页面中抓取多篇文章，每篇文章都有单独的href

Scrapy爬虫没有跟随链接来获取新页面

如何在Scrapy中修复403响应

scrapy爬虫没有跟随下一个链接

如何建立我的抓取蜘蛛到一个可执行文件使用py2exe？

抓取的限制页不起作用

如何在python脚本中使用scrapy的Spider和LinkExtractor？

如何将运行scrapy的默认设置设置为python脚本？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐