不能使用scrapy抓取超过10条记录_使用Scrapy不能从父div抓取子xpath_使用CrawlSpider可以使用scrapy.Spider抓取单个页面，但不能抓取整个网站 - 腾讯云开发者社区

、、

我刚接触scrapy和python。我使用scrapy来抓取数据。该网站使用AJAX进行分页，所以我不能获得超过10条记录的数据，我正在发布我的代码from scrapy.selector import Selectorfrom scrapy import Request from justdial.items import JustdialIt

浏览 3提问于2016-08-31得票数 0

回答已采纳

1回答

使用Scrapy进行Web抓取在抓取过程中添加额外的元素

、、

我正在抓取一个网站，在一个特定的地方寻找段落超过了大量的URL。我想要做的是为我正在访问的每个URL记录我在csv文件中抓取的段落的‘下一步’的URL。首先，我使用网站的搜索语法列出了我想要抓取的所有网站。我正在按ISBN号查找书籍。我目前得到的是一个抓取的段落列表，就像我wanted...However它偶尔不起作用一样，所以我不能简单地将抓取的段落与我事后拥有的ISBN列表连接起来，因为它们不能完美地对齐。q=&

浏览 6提问于2019-12-01得票数 0

1回答

抓取速度较慢(60页/分钟)

、、、

我遇到了抓取速度慢的scrapy (大约1页/秒)。我正在从aws服务器上抓取一个主要网站，所以我不认为这是一个网络问题。Cpu利用率远远不到100，如果我启动多个抓取进程，爬行速度会快得多。Scrapy似乎爬行了一大堆页面，然后挂起了几秒钟，然后重复。我已经尝试过了: CONCURRENT_REQUESTS = CONCURRENT_REQUESTS_PER_DOMAIN = 500 但这似乎并不能真正使指针超过20。

浏览 0提问于2012-11-22得票数 8

1回答

如何在scrapy运行之前手动进行身份验证？

、

我想在登录之前抓取一个使用大量验证码挑战的网页(例如，超过20个挑战)。import scrapy name = "bad" def

浏览 1提问于2019-06-10得票数 0

1回答

用scrapy抓取“查看更多”按钮

、、、

我正在尝试从这个页面中抓取数据，但有一个“查看更多”按钮。我不知道该用哪个url来存储更多的数据。我检查了页面，打开了网络标签，但我无法找到用Scrapy抓取所有数据的好方法。我知道我可以使用Selenium，但有超过200000个urls，所以我不能使用Selenium，因为需要几周时间才能获得所有数据。

浏览 0提问于2019-12-08得票数 1

1回答

使用Scrapy将网站中的新数据拉到现有表格中

、、、、

我有一个Python的Scrapy项目。我从网站上提取了我想要的所有数据。但我希望从网站中提取新数据到现有表中，而不是在每次更新时从头开始提取数据。

浏览 14提问于2020-08-18得票数 0

1回答

Python Scrapy不爬行网站

、、、

我只能抓取第一个给定的网址，但我不能抓取超过一个网页的或整个网站的问题！我所做的例子很简单..。我的items.py class WikiItem(scrapy.Item):我的wikip.py (蜘蛛)from wiki.items impor

浏览 4提问于2016-05-19得票数 0

1回答

使用Scrapy抓取ajax页面

、、

我已经用Scrapy一个月了。我能够抓取和抓取几个网站(事实上我已经抓取了900个网站)，基于pipelines.Now给出的关键字，问题是当我们遇到javapages (ajax)时，抓取不能抓取。我正在尝试使用以下代码，并对抓取ajax页面进行适当的更改第二个问题是，我面临的问题是scrapy无法抓取

浏览 2提问于2013-06-19得票数 0

回答已采纳

1回答

scrapy增量提取不起作用

、、

我使用的是scrapy 0.20我使用的是插件。'TestSpider.deltafetch.DeltaFetch': 100,DELTAFETCH_ENABLED = True但蜘蛛会继续抓取已经被抓取的项目没有Ignoring already visited:，这是记录在deltafetch中的单词。因此，条件if self.db.has_

浏览 0提问于2014-03-23得票数 2

9回答

BeautifulSoup和Scrapy crawler有什么区别？

、、、

我对BeautifulSoup比较熟悉，但对Scrapy crawler不太熟悉。

浏览 323提问于2013-10-30得票数 146

回答已采纳

1回答

如何使Selenium页面刷新到其元素的最新状态？

、、、、

我有一个Python + Selenium脚本，可以帮助我抓取信息。然而，网页不时会遇到错误，然后我需要刷新页面并再次抓取。

浏览 20提问于2017-08-29得票数 0

1回答

BSON不能编码对象

、、、、

我用Scrapy来抓取一个网站，我正在生成一个很大的文档--有3个属性，其中一个是包含超过5000个对象的数组，其中每个对象都有一些属性和小数组。总之，如果它被写到一个文件中，那么它应该超过2MB，而这个文件并不是很大。如有需要，请提出意见。

浏览 2提问于2015-01-06得票数 0

1回答

在<button rel="next">上抓取

、

我使用Scrapy在kogan.com上抓取数据‘下一页’是一个没有href的rel="next"属性的按钮。此外，我尝试手动向url添加页码，但page号仅限于page=10，不能再往下添加(>10)。例如，我输入page=11，url仍然是page=10。所以我假设这是这个网站的防抓取机制？使页码超过10的唯一方法是单击<button>。下面是我正在爬行的链接。https://www.kogan.com/au

浏览 15提问于2019-04-29得票数 0

1回答

如何让Scrapy的SitemapSpider在深度大于1的情况下爬行？

、、

我正在尝试使用Scrapy来记录网站内发生的每个链接。我使用的是SitemapSpider，但查看生成的CSV显示，爬行器从未获得超过1的深度-我希望它跟踪它遇到的每个链接，并从这些链接中抓取链接。import scrapyfrom scrapy.spiders import SitemapSpider class fffSpideritem['depth']

浏览 0提问于2016-02-23得票数 0

2回答

捕获Scrapy警告并将其放入项中

、

在抓取过程中，我收到以下警告：def errback(self, failure): item

浏览 3提问于2019-01-09得票数 0

1回答

抓取-只浏览博客文章

、、、

我正在使用Scrapy来抓取网站，但我想知道是否有一种方法可以将其设置为只抓取网站的博客文章(即不包括页面)？我可能会为每个站点创建特定的规则来使其工作，但是如果我需要爬行多个站点的话，这太费时了。有没有办法让一个爬虫在所有网站上通用，只抓取博客帖子？我对此表示怀疑，但我祈祷一些天才对此有个答案。

浏览 6提问于2013-05-26得票数 1

1回答

如何使用scrapy或selenium抓取动态页面？

、、、、

我正在尝试抓取web动态页面，但使用scrapy时，我不能检索所有信息，因为我想要的信息是动态的。我试着使用Selenium，但与Scrapy不同的是，你不能指定头部，网站阻止了我。(我不能说出这个网站的名字，因为抓取是非法的，但它是一个著名的旅游元搜索引擎...)。我有一个带有验证码解算器的页面(用脚本很难解决重新验证码)，因为网站会检测到我是机器人。我想拥有所有的动态信息，并有权访问网站，但不可能与selenium和sc

浏览 23提问于2019-06-13得票数 0

1回答

Scrapy解析站点的某个部分，并忽略其余部分

、

当我运行我的抓取器时，它从一个站点抓取大约200条记录，而这个站点包含大约250条记录。我找不出我在创建它时所犯的任何错误。任何帮助都将不胜感激。"items.py“包括：class WiseowlItem(scrapy.Item): Url= scrapy.Fieldclass="woVideoListDefaultSeriesTitle&q

浏览 2提问于2017-04-11得票数 0

2回答

使用scrapy将抓取的项目保存到json/csv/xml文件

、

通过以下示例和文档，我创建了我的爬行器，以便使用站点地图抓取数据from scrapy.selectorlog在屏幕上看到抓取的结果通过在命令中添加选项，我可以将抓取的结果保存到json/csv/xml文件中用于在文件中获取结果的scrapy crawl myspider我的问题是，只有

浏览 2提问于2014-02-04得票数 4

3回答

Scrapy pause/resume是如何工作的？

有人能给我解释一下Scrapy中的暂停/恢复功能是如何工作的吗？没有提供太多细节。parse(self, response): f.write(response.url + '\n')from twisted.internet import reactor from scrapy<

浏览 0提问于2015-03-04得票数 8

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云