腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
使用
Java
在
reduceBykey
上
触发
combineByKey
valuekey1, CLASS-A,YES,5key3, CLASS-C,NO,1 key value-----------------------ke
浏览 37
提问于2017-08-28
得票数 1
回答已采纳
1
回答
在
reduceByKey
期间,元组元素不会转换为浮点型
、
我正在为CCA175做准备,我
使用
的是spark最老的版本,Spark 1.3.0。映射后,我可以看到它被映射为Float,但是当我运行下面的命令时,它显示了一个错误:<console>:34: error: value _2 is not a membe
浏览 0
提问于2016-09-03
得票数 1
2
回答
组合键和聚合键的区别
、
我是Apache spark的新手,所以这个问题可能不适合问,但我不明白
combinebykey
和aggregatebykey之间的区别以及何时
使用
哪个操作。
浏览 0
提问于2017-04-19
得票数 7
1
回答
星星之火
reduceByKey
函数似乎不能单键工作。
、
我
在
mysql中有5行记录,如 JavaPairRDD<Tuple3<String,String,String>, Map>(<sku,seller,stock>似乎row2没有进入
reduceByKey
函数体。我在想为什么?
浏览 4
提问于2018-01-12
得票数 0
回答已采纳
2
回答
Apache Spark:
使用
RDD.aggregateByKey()实现RDD.groupByKey()的等价物是什么?
、
、
相反,建议
使用
reduceByKey
()、aggregateByKey()、
combineByKey
()或foldByKey()。这将导致在混洗之前
在
工作进程中进行一些聚合,从而减少工作进程之间的数据混洗。
浏览 0
提问于2015-06-27
得票数 11
回答已采纳
1
回答
GroupByKey比
CombineByKey
快
、
我
在
RDD中有类元素(Int,(Int,Int,Int)。其目的是将具有相同键的元素限制
在
某个阈值t内。,可以通过组合器利用映射端的聚合,因为
在
单个分区中可能存在不止相同的键,导致如下结果:GroupByKey时间: 4,1分钟提前感谢!这是因为事实
上</em
浏览 0
提问于2017-10-19
得票数 0
3
回答
Pyspark过滤器
在
执行余弦相似度时前三个匹配
、
你能告诉我如何调整它,或者更好的是,
使用
一些不会扰乱数据的东西吗?
浏览 5
提问于2016-08-10
得票数 1
2
回答
计算每个键的唯一值的有效方法
、
、
我试着
使用
尽可能多的内置组件,据我所知,这是提高速度的正确方法。
浏览 0
提问于2015-11-09
得票数 1
1
回答
如何在GraphX中
使用
aggregateMessages中的组合器
、
在
GraphX aggregateMessages API中 def aggregateMessages[Msg: ClassTag]( : VertexRDD[Msg]但是我想修改merge stage的返回类型,这意味着我想要像
combineByKey
这样的东西而不是
reduceByKey
,如何才能基于GraphX的优势做到这一点呢?或者换句话说,我如
浏览 2
提问于2018-05-16
得票数 2
6
回答
reduceByKey
与groupByKey与aggregateByKey与
combineByKey
的火花区别
、
、
有人能解释
reducebykey
、groupbykey、aggregatebykey和
combinebykey
之间的区别吗?我看过有关这方面的文件,但不明白具体的不同之处。 用例子来解释会很好。
浏览 7
提问于2017-04-12
得票数 96
回答已采纳
1
回答
RDDs阵列?一个时间窗口的RDD
在
主时间窗口中,我将其划分为较小间隔的桶。因此,3周分为24小时时间桶,有一个类似于(start_epoch,stop_epoch),(start_epoch,stop_epoch),.
在
每个时间桶中,我将事件映射/减少到一个较小的集合中。处理这件事最好的方法是什么?每次映射/减少操作都会产生一个新的RDD,因此实际
上
留给我的是大量的RDD。只从驱动程序循环该数组,然后
在
每个RDD
上
执行其他转换/操作以获得每个时间窗口的结果是否“安全”
浏览 1
提问于2016-03-11
得票数 0
回答已采纳
3
回答
与
reduceByKey
相比,groupByKey是否更受欢迎
、
当我需要在RDDs中分组数据时,我总是
使用
reduceByKey
,因为它在混洗数据之前执行map端reduce,这通常意味着较少的数据被混洗,因此我可以获得更好的性能。即使Map端的reduce函数收集了所有的值,实际
上
并没有减少数据量,我仍然
使用
reduceByKey
,因为我假设
reduceByKey
的性能永远不会比groupByKey差。
浏览 0
提问于2015-10-20
得票数 19
回答已采纳
2
回答
使用
reduceByKey
时scala中的类型不匹配
、
我已经
在
shell中单独测试了我的错误代码p6: org.apache.spark.rdd.RDD[(String, (String, String, Int))] = MapPartitionsRDD[11] at map at <console>:26 scala> val p8 = p7.
reduceByKey
type misma
浏览 0
提问于2018-05-03
得票数 0
回答已采纳
2
回答
如何在Apache中执行简单的
reduceByKey
?
、
subject object node2 [node5,node7] } // this can be optimized if we use
re
浏览 2
提问于2017-01-23
得票数 1
回答已采纳
1
回答
星星之火- groupByKey映射侧聚合
、
在
“学习火花”中读到 groupByKey()
在
RDD中禁用映射端的聚合,因为聚合函数(附加到列表)不会节省任何空间。然而,根据我的理解,而不是
使用
groupByKey,而是
使用
类似于
reduceByKey
或(
CombineByKey
+一个组合器函数)之类的东西,我们可以减少数据的混乱。
浏览 0
提问于2016-12-10
得票数 0
回答已采纳
2
回答
reduceByKey
的分区方面
、
、
尽管RDDs是遗留下来的--而且在下一次任务之前还有一点时间--我仍在想: 考虑到它的工作原理类似于Map中的
combineByKey
,那么真正的意义是什么?
在
实际情况下,我怀疑它不是经常
使用
的,一般情况下(根据我自己的观察),已经重新划分了它。
浏览 3
提问于2020-05-21
得票数 1
2
回答
如何让Apache Spark
在
完成map之前减少内存
使用
量?
我正在
使用
Apache Spark执行map-reduce工作,但是映射步骤会生成一个结构,这会占用大量内存。
在
将额外的映射对象添加到内存之前,我如何让它从内存中减少和删除映射?我基本
上
是在做myrdd.map(f).reduce(r)。但是,f返回了一个非常大的对象,所以我需要运行缩减程序,然后
在
堆积太多对象之前从内存中删除映射的对象。我能以某种方式做到这一点吗?
浏览 0
提问于2018-04-27
得票数 0
9
回答
将密钥-值对缩减为带有Apache火花的密钥列表对。
、
、
、
、
我觉得我应该能够
使用
reduceByKey
函数来完成这一任务:当这种情况发生时,我得到的错误是:
浏览 9
提问于2014-11-18
得票数 51
回答已采纳
1
回答
除了字数之外,火花流还能做其他事情吗?
、
、
JavaPairDStream<String, byte[]> groupByKeyList = kafkaStream.
reduceByKey
((bytes, bytes2) -> bytes);myCalc.doTheStuff(myThingsList); 调试时,我看到
在
while
浏览 6
提问于2017-01-30
得票数 0
回答已采纳
1
回答
星火中
ReduceByKey
中的参数
、
在
Spark中
使用
Java
编写代码时,我一直面临着
reduceByKey
中的参数
在
Spark中的问题。我不理解
reduceByKey
函数中
使用
的参数。我知道
reduceByKey
的意思和它的工作方式。是
java
类。new KruskalReducer(numPoints), numSubGraphs); 我不明白为什么
在
reduceByKey
中
使用
这样的整数变量。我试图用
R
浏览 4
提问于2017-06-13
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Java:在Java中使用私有接口方法
使用 Mingw在Windows 上使用 GNU
在Android项目中使用Java8
在Ubuntu上使用Git管理代码
在Azure WebApp上使用SSL证书
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券