Scrapy；尝试在amazon中抓取以下页面

Scrapy是一个基于Python的开源网络爬虫框架，用于快速、高效地从网页中提取结构化数据。它提供了强大的工具和库，使开发者能够轻松地构建和部署爬虫程序。

Scrapy的主要特点包括：

强大的爬取能力：Scrapy支持并发请求和异步处理，可以高效地处理大量的网页数据。
灵活的数据提取：Scrapy提供了丰富的选择器和解析器，可以根据网页的结构和特点提取所需的数据。
分布式支持：Scrapy可以通过分布式架构进行扩展，实现高效的分布式爬取和数据处理。
自动化处理：Scrapy支持自动化处理流程，包括请求、响应、数据提取、存储等，减少了开发者的工作量。
可扩展性：Scrapy提供了丰富的扩展机制，开发者可以根据自己的需求定制和扩展框架的功能。

Scrapy适用于以下场景：

数据采集：Scrapy可以用于从各种网站上采集数据，包括新闻、商品信息、社交媒体数据等。
数据分析：Scrapy可以将采集到的数据进行清洗、整理和分析，用于生成报告、建立模型等。
网络监测：Scrapy可以监测网站的变化，例如监测竞争对手的产品价格、库存情况等。
搜索引擎优化：Scrapy可以用于抓取网页内容，分析关键词、链接等信息，帮助网站提升搜索引擎排名。

腾讯云提供了一系列与爬虫相关的产品和服务，包括：

腾讯云爬虫服务：提供了高性能的分布式爬虫服务，支持海量数据采集和处理。
腾讯云数据万象（COS）：提供了可靠、安全的对象存储服务，适用于存储和管理爬虫采集到的数据。
腾讯云CDN：提供了全球加速的内容分发网络，可以加速爬虫请求的响应速度。
腾讯云数据库：提供了多种类型的数据库服务，适用于存储和查询爬虫采集到的数据。

更多关于腾讯云相关产品和服务的介绍，请访问腾讯云官方网站：腾讯云。

Scrapy；尝试在amazon中抓取以下页面

、、

我试图从这个亚马逊产品的The link is here上抓取所有评论。但是，它只呈现第一页的结果。Snapshot of the first page result 下面是我在scrapy框架中的代码。import scrapyname = 'spideramazon' allowed_domains = ['<

浏览 30提问于2020-04-13得票数 0

2回答

抓取亚马逊交易页面

、、、、

我需要从亚马逊页面的hrefs链接获得ASIN。ASIN是由10个字母和/或数字组成的唯一块，用于标识项目。import scrapy name = "amazon"def start_r

浏览 5提问于2018-09-05得票数 0

1回答

Python是否有可能进入每个产品页面并刮取数据？

、、

我对python和web抓取很陌生，我想知道是否有可能用刮伤从产品页面中抓取。示例:我在amazon.com上搜索监视器，我希望scrapy转到每个产品页面并从那里刮取，而不是只是从搜索结果页面中抓取数据。我正确地拥有了一个从搜索结果页面中抓取的刮擦项目，但是我想将它改进为从产品页面中刮取。): product

浏览 3提问于2020-11-10得票数 0

回答已采纳

2回答

使用scrapy从不同的站点提取信息

、

我刚开始接触scrapy，我花了一整晚的时间试图弄清楚如何在我的项目中使用它。假设我有以下网站: www.amazon.com www.ebay.com www.buydirect.com谢谢

浏览 4提问于2013-07-10得票数 2

回答已采纳

1回答

我对网络抓取、Python和Scrapy的世界很陌生。所以，如果我的理解有什么根本性的缺陷，请原谅。我来自JAVA/R背景。我正试着刮的书细节。我在使用chrome的XPATH查找器之后构建了所需的XPATHs，但是当我在Scrapy中尝试相同的XPATH查询时，会显示不同形式的URL。例如，对于我获得的XPATH查找器中的下面XPATH查询//ul[@id='ref_976390031']/

浏览 2提问于2014-12-16得票数 0

回答已采纳

1回答

使用残缺的规则访问“下一页”

、、、

代码的目标是抓取一些亚马逊产品的数据，它是这样工作的：让我们以这个页面为例 https://www.amazon.com/s?，在完成从该页面中抓取所有数据后，它将移动到下一个页面(在本例中为第2页)。我在规则中有这样的东西(我不得不重写一些xpath，因为它们已经过时了) import scrapyimport string

浏览 2提问于2019-06-04得票数 0

1回答

使用Scrapy抓取ajax页面

、、

我已经用Scrapy一个月了。我能够抓取和抓取几个网站(事实上我已经抓取了900个网站)，基于pipelines.Now给出的关键字，问题是当我们遇到javapages (ajax)时，抓取不能抓取。我正在尝试使用以下代码，并对抓取ajax页面进行适当的更改第二个问题是，我面临的问题是scrapy无法<e

浏览 2提问于2013-06-19得票数 0

回答已采纳

9回答

BeautifulSoup和Scrapy crawler有什么区别？

、、、

我对BeautifulSoup比较熟悉，但对Scrapy crawler不太熟悉。

浏览 323提问于2013-10-30得票数 146

回答已采纳

1回答

抓取爬行类别和页面

、、、、

我对抓取和蟒蛇都很陌生，我很难理解流程。我不知道把“爬到下一页”的功能放在哪里。我不确定是应该在回调parse_data之后还是在parse_data函数中调用它import scrapy name = 'amazon0.1' allowed_dom

浏览 4提问于2017-09-14得票数 1

回答已采纳

1回答

为什么我不能使用scrapy选择亚马逊页面中的某些元素？

、、、、

我正在尝试从以下页面解析亚马逊标准识别码(ASIN)。 from scrapy.crawler import CrawlerProcess name= 'amazon.com' def start_requests(

浏览 2提问于2018-09-26得票数 1

2回答

用scrapy抓取参数化的url

、

我使用python scrapy运行了一个爬行器，它从带有参数(即&符号)的页面中抓取所有页面，比如http://www.amazon.co.uk/gp/product/B003ZDXHSG/ref=s9错误日志显示为[scrapy] ERROR: xxx matching query does not exist.我正在使用具有以下SgmlLinkExtractor rule的Cra

浏览 0提问于2011-03-31得票数 0

1回答

抓取AWS博客网站时Scrapy不返回任何内容

、

这是我在AWS博客网站首页抓取URL列表的尝试。但它不返回任何内容。我想可能是我的xpath出了问题，但不确定如何修复。import scrapy name = 'awsblog' name = 'awsb

浏览 17提问于2019-11-06得票数 0

回答已采纳

1回答

剪贴式编辑编辑从规则提取的链接

、

我在亚马逊上测试解析产品，我想抓取产品，我得到了产品的xpath正确，但我想编辑它以匹配"https://www.amazon.com/dp/{}".format("ASIN")，即从链接中删除一些额外的东西，我也得到了它的正则表达式，但当我使用的process_value时，scrapy显示一个错误。from scrapy.linkextractors import LinkExtractor from <

浏览 7提问于2019-07-06得票数 0

1回答

如何链接items.py和我的爬虫文件？

我是个新手，正在尝试抓取一个有几个链接的页面。我想跟随它并从该页面中抓取内容，并且从该页面有另一个我想抓取的链接。我在shell上尝试了这个方法，它起作用了，但是，我不知道我在这里遗漏了什么。我希望能够通过以下链接爬行通过两个页面。我试着通读教程，但我真的不明白我在这里遗漏了什么。这是我的items.py文件。import scrapy # item cla

浏览 21提问于2019-04-21得票数 0

回答已采纳

1回答

使用Scrapy抓取rss提要不会返回任何结果

、

我正在使用Scrapy来抓取页面，我尝试了很多次，但我确信以下命令(在shell中)不起作用，并返回空结果：这就是在chrome控制台中，这给我带来了预期的结果： $x('//*[@class="itemtitl

浏览 61提问于2019-06-02得票数 0

回答已采纳

2回答

如何抓取一个网站只给定域网址与scrapy

、、、

我正在尝试使用scrapy抓取一个网站，但网站没有网站地图或页面索引。如何使用scrapy抓取网站的所有页面？我只需要下载网站的所有页面，而不提取任何项目。我只需要在蜘蛛规则中设置关注所有链接吗？但我不知道scrapy是否会以这种方式避免复制urls。

浏览 0提问于2013-01-06得票数 5

回答已采纳

2回答

将呈现的页面从Selenium传递到Scrapy

、、

我想刮掉需要登录的Javascript页面。我想知道是否可以使用Selenium加载并登录到页面，然后Selenium将呈现的代码传递给Scrapy进行数据提取。import scrapyfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.support import expected_conditi

浏览 28提问于2019-07-24得票数 1

1回答

Python Scrapy未提供所需的输出

我正在尝试使用python Scrapy抓取一个网站。xpath表达式在从scrapy shell运行时提供所需的输出，但在从爬行器运行时不提供。未返回错误，但已进行调试爬网(200)。以下是我的代码： import logging from scrapy.spidersimport CrawlSpider, Rule

浏览 7提问于2017-01-05得票数 0

1回答

如何从xpath中抓取业务名称并获取csv文件

、

i am trying to scrape yellow page by using scrapy and python getting all other result right but notgetting the business name 尝试更改xpath，甚至尝试css选择器，但没有得到正确的结果

浏览 20提问于2020-04-05得票数 0

回答已采纳

1回答

如何防止网络爬虫301重定向

、、、

我对网络抓取还是个新手，只是在一些网页上测试一下。我已经成功地抓取了几次亚马逊搜索，但在这种情况下，我得到了301重定向，导致一个不同的页面被抓取。我尝试添加一行(handle_httpstatus_list = 301)来防止重定向。这会导致根本不会抓取任何数据。 class BooksSpider(scrapy

浏览 36提问于2019-08-04得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Scrapy；尝试在amazon中抓取以下页面

相关·内容

Scrapy；尝试在amazon中抓取以下页面

抓取亚马逊交易页面

Python是否有可能进入每个产品页面并刮取数据？

使用scrapy从不同的站点提取信息

浏览器呈现的URL和刮过的URL是不同的。请解释一下

使用残缺的规则访问“下一页”

使用Scrapy抓取ajax页面

BeautifulSoup和Scrapy crawler有什么区别？

抓取爬行类别和页面

为什么我不能使用scrapy选择亚马逊页面中的某些元素？

用scrapy抓取参数化的url

抓取AWS博客网站时Scrapy不返回任何内容

剪贴式编辑编辑从规则提取的链接

如何链接items.py和我的爬虫文件？

使用Scrapy抓取rss提要不会返回任何结果

如何抓取一个网站只给定域网址与scrapy

将呈现的页面从Selenium传递到Scrapy

Python Scrapy未提供所需的输出

如何从xpath中抓取业务名称并获取csv文件

如何防止网络爬虫301重定向

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐