腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(8123)
视频
沙龙
1
回答
不能
使用
scrapy
抓取
超过
10条
记录
、
、
我刚接触
scrapy
和python。我
使用
scrapy
来
抓取
数据。该网站
使用
AJAX进行分页,所以我
不能
获得
超过
10条
记录
的数据,我正在发布我的代码from
scrapy
.selector import Selectorfrom
scrapy
import Request from justdial.items import JustdialIt
浏览 3
提问于2016-08-31
得票数 0
回答已采纳
1
回答
使用
Scrapy
进行Web
抓取
在
抓取
过程中添加额外的元素
、
、
我正在
抓取
一个网站,在一个特定的地方寻找段落
超过
了大量的URL。我想要做的是为我正在访问的每个URL
记录
我在csv文件中
抓取
的段落的‘下一步’的URL。首先,我
使用
网站的搜索语法列出了我想要
抓取
的所有网站。我正在按ISBN号查找书籍。我目前得到的是一个
抓取
的段落列表,就像我wanted...However它偶尔不起作用一样,所以我
不能
简单地将
抓取
的段落与我事后拥有的ISBN列表连接起来,因为它们
不能
完美地对齐。q=&
浏览 6
提问于2019-12-01
得票数 0
1
回答
抓取
速度较慢(60页/分钟)
、
、
、
我遇到了
抓取
速度慢的
scrapy
(大约1页/秒)。我正在从aws服务器上
抓取
一个主要网站,所以我不认为这是一个网络问题。Cpu利用率远远不到100,如果我启动多个
抓取
进程,爬行速度会快得多。
Scrapy
似乎爬行了一大堆页面,然后挂起了几秒钟,然后重复。我已经尝试过了: CONCURRENT_REQUESTS = CONCURRENT_REQUESTS_PER_DOMAIN = 500 但这似乎并
不能
真正使指针
超过
20。
浏览 0
提问于2012-11-22
得票数 8
1
回答
如何在
scrapy
运行之前手动进行身份验证?
、
我想在登录之前
抓取
一个
使用
大量验证码挑战的网页(例如,
超过
20个挑战)。import
scrapy
name = "bad" def
浏览 1
提问于2019-06-10
得票数 0
1
回答
用
scrapy
抓取
“查看更多”按钮
、
、
、
我正在尝试从这个页面中
抓取
数据,但有一个“查看更多”按钮。我不知道该用哪个url来存储更多的数据。 我检查了页面,打开了网络标签,但我无法找到用
Scrapy
抓取
所有数据的好方法。我知道我可以
使用
Selenium,但有
超过
200000个urls,所以我
不能
使用
Selenium,因为需要几周时间才能获得所有数据。
浏览 0
提问于2019-12-08
得票数 1
1
回答
使用
Scrapy
将网站中的新数据拉到现有表格中
、
、
、
、
我有一个Python的
Scrapy
项目。我从网站上提取了我想要的所有数据。但我希望从网站中提取新数据到现有表中,而不是在每次更新时从头开始提取数据。
浏览 14
提问于2020-08-18
得票数 0
1
回答
Python
Scrapy
不爬行网站
、
、
、
我只能
抓取
第一个给定的网址,但我
不能
抓取
超过
一个网页的或整个网站的问题!我所做的例子很简单..。我的items.py class WikiItem(
scrapy
.Item):我的wikip.py (蜘蛛)from wiki.items impor
浏览 4
提问于2016-05-19
得票数 0
1
回答
使用
Scrapy
抓取
ajax页面
、
、
我已经用
Scrapy
一个月了。我能够
抓取
和
抓取
几个网站(事实上我已经
抓取
了900个网站),基于pipelines.Now给出的关键字,问题是当我们遇到javapages (ajax)时,
抓取
不能
抓取
。我正在尝试
使用
以下代码,并对
抓取
ajax页面进行适当的更改第二个问题是,我面临的问题是
scrapy
无法
抓取
浏览 2
提问于2013-06-19
得票数 0
回答已采纳
1
回答
scrapy
增量提取不起作用
、
、
我
使用
的是
scrapy
0.20我
使用
的是插件。'TestSpider.deltafetch.DeltaFetch': 100,DELTAFETCH_ENABLED = True但蜘蛛会继续
抓取
已经被
抓取
的项目没有Ignoring already visited:,这是
记录
在deltafetch中的单词。因此,条件if self.db.has_
浏览 0
提问于2014-03-23
得票数 2
9
回答
BeautifulSoup和
Scrapy
crawler有什么区别?
、
、
、
我对BeautifulSoup比较熟悉,但对
Scrapy
crawler不太熟悉。
浏览 323
提问于2013-10-30
得票数 146
回答已采纳
1
回答
如何使Selenium页面刷新到其元素的最新状态?
、
、
、
、
我有一个Python + Selenium脚本,可以帮助我
抓取
信息。然而,网页不时会遇到错误,然后我需要刷新页面并再次
抓取
。
浏览 20
提问于2017-08-29
得票数 0
1
回答
BSON
不能
编码对象
、
、
、
、
我用
Scrapy
来
抓取
一个网站,我正在生成一个很大的文档--有3个属性,其中一个是包含
超过
5000个对象的数组,其中每个对象都有一些属性和小数组。总之,如果它被写到一个文件中,那么它应该
超过
2MB,而这个文件并不是很大。如有需要,请提出意见。
浏览 2
提问于2015-01-06
得票数 0
1
回答
在<button rel="next">上
抓取
、
我
使用
Scrapy
在kogan.com上
抓取
数据‘下一页’是一个没有href的rel="next"属性的按钮。此外,我尝试手动向url添加页码,但page号仅限于page=10,
不能
再往下添加(>10)。例如,我输入page=11,url仍然是page=10。所以我假设这是这个网站的防
抓取
机制?使页码
超过
10的唯一方法是单击<button>。下面是我正在爬行的链接。https://www.kogan.com/au
浏览 15
提问于2019-04-29
得票数 0
1
回答
如何让
Scrapy
的SitemapSpider在深度大于1的情况下爬行?
、
、
我正在尝试
使用
Scrapy
来
记录
网站内发生的每个链接。我
使用
的是SitemapSpider,但查看生成的CSV显示,爬行器从未获得
超过
1的深度-我希望它跟踪它遇到的每个链接,并从这些链接中
抓取
链接。import
scrapy
from
scrapy
.spiders import SitemapSpider class fffSpideritem['depth']
浏览 0
提问于2016-02-23
得票数 0
2
回答
捕获
Scrapy
警告并将其放入项中
、
在
抓取
过程中,我收到以下警告:def errback(self, failure): item
浏览 3
提问于2019-01-09
得票数 0
1
回答
抓取
-只浏览博客文章
、
、
、
我正在
使用
Scrapy
来
抓取
网站,但我想知道是否有一种方法可以将其设置为只
抓取
网站的博客文章(即不包括页面)?我可能会为每个站点创建特定的规则来使其工作,但是如果我需要爬行多个站点的话,这太费时了。有没有办法让一个爬虫在所有网站上通用,只
抓取
博客帖子?我对此表示怀疑,但我祈祷一些天才对此有个答案。
浏览 6
提问于2013-05-26
得票数 1
1
回答
如何
使用
scrapy
或selenium
抓取
动态页面?
、
、
、
、
我正在尝试
抓取
web动态页面,但
使用
scrapy
时,我
不能
检索所有信息,因为我想要的信息是动态的。 我试着
使用
Selenium,但与
Scrapy
不同的是,你
不能
指定头部,网站阻止了我。(我
不能
说出这个网站的名字,因为
抓取
是非法的,但它是一个著名的旅游元搜索引擎...)。我有一个带有验证码解算器的页面(用脚本很难解决重新验证码),因为网站会检测到我是机器人。我想拥有所有的动态信息,并有权访问网站,但不可能与selenium和
sc
浏览 23
提问于2019-06-13
得票数 0
1
回答
Scrapy
解析站点的某个部分,并忽略其余部分
、
当我运行我的
抓取
器时,它从一个站点
抓取
大约200条
记录
,而这个站点包含大约250条
记录
。我找不出我在创建它时所犯的任何错误。任何帮助都将不胜感激。"items.py“包括:class WiseowlItem(
scrapy
.Item): Url=
scrapy
.Fieldclass="woVideoListDefaultSeriesTitle&q
浏览 2
提问于2017-04-11
得票数 0
2
回答
使用
scrapy
将
抓取
的项目保存到json/csv/xml文件
、
通过以下示例和文档,我创建了我的爬行器,以便
使用
站点地图
抓取
数据from
scrapy
.selectorlog在屏幕上看到
抓取
的结果通过在命令中添加选项,我可以将
抓取
的结果保存到json/csv/xml文件中 用于在文件中获取结果的
scrapy
crawl myspider我的问题是,只有
浏览 2
提问于2014-02-04
得票数 4
3
回答
Scrapy
pause/resume是如何工作的?
有人能给我解释一下
Scrapy
中的暂停/恢复功能是如何工作的吗?没有提供太多细节。parse(self, response): f.write(response.url + '\n')from twisted.internet import reactor from
scrapy<
浏览 0
提问于2015-03-04
得票数 8
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python爬虫:使用scrapy框架抓取360超清壁纸
使用Kafka,如何成功迁移SQL数据库中超过20亿条记录?
精辟,这应该是2018年最详细的python爬虫入门教程了!
scrapy官方文档提供的常见使用问题
使用 Scrapy 构建一个网络爬虫
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券