腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
Spark
中
进行
聚合
的
最佳
方式
、
、
当我尝试执行此
聚合
时,内存将会耗尽。它工作得很好,但在一小部分数据上速度非常慢。我
在
pySpark
中
运行它。有没有另一种方法可以根据特定
的
组计算列
的
平均值,这样运行起来会更好?
浏览 7
提问于2016-08-24
得票数 0
1
回答
Spark
1.5作为KAFKA 0.9或0.10
的
客户端
、
我可以使用Kafka consumer API编写
Spark
1.5客户端,从KAFKA 0.9或0.10获取消息并对其
进行
处理吗?如果不能,那么使用
Spark
作为处理引擎获取消息并应用
聚合
和统计建模以生成最终输出
的
最佳
方式
是什么?
浏览 1
提问于2016-07-28
得票数 0
1
回答
将GroupBy+aggregate转换为groupByKey
、
、
我设计了一个如下所示
的
DF:|A |B ||1 |"bar"|df.groupby("A").collect() 但是,由于我从事
的
是一个大型
的
因此,我
的
问
浏览 0
提问于2017-08-07
得票数 1
回答已采纳
2
回答
星火结构化流
中
同一数据基/数据集上
的
多个操作/
聚合
、
、
我用
的
是火花2.3.2。val kafkaSource =
spark
.readStream.option("kafka") ...val但是,当我尝试为每个
聚合
结果调用writeStream时: aggr1.writeStr
浏览 0
提问于2019-03-19
得票数 2
回答已采纳
1
回答
如何在不使用flatMapsGroupWithState
的
情况下,使用结构化流2.3.0
在
spark
中
进行
无状态
聚合
?
、
、
如何在不使用flatMapsGroupWithState或Dstream API
的
情况下,使用结构化流2.3.0
在
spark
中
进行
无状态
聚合
?寻找一种更具声明性
的
方式
select count(*) from some_view 我希望输出只计算每批
中
可用
的
任何记录,而不是前一批
中
的
聚合
记录
浏览 0
提问于2018-05-05
得票数 2
1
回答
如何在pyspark dataframe中将groupby转换为reducebykey?
、
、
、
、
我感觉性能受到了group by
的
影响。取而代之
的
是,我想使用reducebykey。但我是这个领域
的
新手。请在下面找到我
的
场景,Step2:输入列总数为15列,其中5列为关键字段,其余为数值。Step3:除了上面的输入列之外,还需要从数值列派生更多
的
列。具有默认值
的
几列。 第四步:我已经使用了group by和sum函数。如何用
spark
浏览 0
提问于2017-09-21
得票数 1
1
回答
Cassandra之上
的
Spark
如何影响Cassandra数据建模?
、
、
在
与Cassandra打交道时,我学到
的
第一件事是,你需要非常小心地对待你
的
数据模型,因为Cassandra不支持joins,
聚合
等。所以你根据你
的
查询来建模你
的
数据,使用广泛
的
去正规化等。但是假设我已经决定在Cassandra之上运行
Spark
。
Spark
将允许
进行
连接和
聚合
,以及对数据
进行
不同
的
计算。所以我
的
问题是,当我
在
C
浏览 0
提问于2015-06-26
得票数 0
1
回答
在
Cassandra
中
,我应该使用什么数据结构来模仿“按计数器订货”?
假设我现在有一个这样
的
桌子{ commentid uuid, PRIMARY_KEY(contentid, commentid)本表
的
目的是跟踪评论和个别评论被“喜欢”
的
次数。我想要做
的
是得到顶部
的
评论(比如说20个顶级评论),这取决于每个内容在这个表
中
的
赞数。 我知道没有办法按计数器订购,所以我想
浏览 2
提问于2015-02-13
得票数 2
回答已采纳
1
回答
Apache
Spark
自定义
聚合
函数
使用
Spark
2.0实现以下查询
的
最佳
方式
是什么?
聚合
器?UDAF?也许已经有类似的sparksql功能了?
浏览 18
提问于2017-03-13
得票数 0
0
回答
spark
Dataframe
中
的
reducebykey和aggregatebykey
、
、
我正在使用
spark
2.0从拼图文件
中
读取数据。total=dfSumForeachId.agg(sum("sum(balance)")).first().getDouble(0) 为了获得总余额值,这是在数据帧上使用action first()获取它
的
最佳
方法吗
在
spark
2.0
中
,是否可以使用groupby key,它是否具有与rdd上
的
groupbykey相同
的
性能问题?例如,它是否需要在网络上混洗整个数
浏览 5
提问于2017-01-03
得票数 2
回答已采纳
2
回答
在
spark
.sql中选择具有组
的
多个元素
、
、
、
在
选择我正在使用
的
多个元素代码
的
sql
spark
中
,是否有按表分组
的
方法:df.createOrReplaceTempView("GETBYID")val sqlDF =
spark
.sql( "SELECT count(customerId)
浏览 7
提问于2017-01-02
得票数 2
回答已采纳
1
回答
一个150兆
的
mongodb集合
的
同步服务
的
最佳
方法与火花sql?
、
、
、
、
我
在
一个单一
的
实例中有一个 MongoDB
的
MongoDB 150 m文档集合。每个文档都是一个产品。产品有价格和类别。到目前为止,我尝试用两种不同
的
方式
来实现它--这两种
方式
似乎都太慢,无法公开同步服务(客户机将不得不等待太长时间): 使用本机MongoDB
聚合
器:当产品数量很大时,使用原生MongoDB
聚合
器似乎太慢了MongoDB +
Spark
:使用过滤下推获取给定类别的产品,并处理火花集群节点内
的
平均
浏览 2
提问于2017-10-02
得票数 0
回答已采纳
1
回答
如何检查在
spark
-streaming中有效执行reduceByKey
、
我运行
的
是
Spark
2.3.1独立集群。我
的
工作是每2分钟消费一次Kafka迷你批次,并将
聚合
写到某个商店。我
的
问题--据我所知,
spark
应该使用组合器来
进行
reduceByKey操作,这应该会大大减少混洗
的
大小。为什么DAG没有显示这个,我如何检查那个?我应该查看哪些配置属性/指标来检查该作业是否已配置并以
最佳
方式
运行。对于此作业,执行器使用10G内存运行
浏览 4
提问于2019-05-29
得票数 0
1
回答
使用hive优化hive数据
聚合
、
、
、
、
我有一个带有followig模式(event_id,country,unit_id,date)
的
hive表(8,000,000条记录),我需要将这些数据导出到一个文本文件
中
,满足以下要求:1- event_id
聚合
(组合)行。2-
聚合
的
行必须根据日期
进行
排序。使用
spark
完成这项工作
的
最佳
性能明智解决方案是什么? 注意:这应该是一个批处理作业
浏览 6
提问于2017-05-05
得票数 0
1
回答
如何处理从最后一次输出到接收器
的
流
中
的
消息?
、
我是
spark
的
新手,我有一个想要以追加输出
方式
发出
聚合
的
用例。我知道追加模式不适合
聚合
,
spark
只有
在
我们提供窗口操作(以及水印)
的
情况下才支持该功能。现在,我想让
spark
做
的
是忘记旧
的
消息(已经
在
流
中
处理
的
消息),只获取
在
最后一次输出和当前时间(即当前微批)之间到达
的
消息,并在其上计算
浏览 2
提问于2021-06-09
得票数 0
0
回答
从
spark
作业动态获取用于使用ADLS
进行
身份验证
的
用户凭据
、
、
、
、
有没有一种方法可以从
spark
作业
中
获取用户凭据以使用ADLS
进行
身份验证。我正在尝试编写一个库,供用户在他们
的
spark
作业中使用来读取数据,并希望隐藏实现细节。另外,从
spark
job
中
获取用户凭据
的
最佳
方式
是什么?
浏览 6
提问于2017-12-14
得票数 0
1
回答
Spark
对已经正确分配
的
分区
进行
交换
、
、
、
、
我用两列连接两个数据集,结果是包含550亿行
的
数据集。之后,我必须按不同于join中所用列
的
列对此DS
进行
聚合
。问题是,
Spark
在
连接之后
进行
交换分区(占用550亿行
的
时间太多),尽管数据已经正确分布,因为
聚合
列是唯一
的
。我知道
聚合
密钥是正确分发
的
,有没有办法告诉
Spark
app?
浏览 1
提问于2017-10-26
得票数 0
1
回答
如何使用
Spark
在
Apache Solr上构建
聚合
、
、
我有一个要求建立
聚合
的
数据,我们收到我们
的
Apache Kafka… 我有点不知道该走哪条技术路线…… 似乎人们看到
的
是标准
的
方式
,一群Apache Kafka <-> Apache
Spark
<-> Solr Bitnami Data Platform 我找不到具体
的
例子说明这是如何工作
的
,但我也
在
问自己,是否有任何解决方案 Apache Kafka <-> Kafka Con
浏览 34
提问于2021-11-11
得票数 0
1
回答
获取
Spark
RDD
中
每个键
的
最大值
、
、
、
在
spark
RDD
中
返回与每个唯一键关联
的
最大行(值)
的
最佳
方法是什么?[(v, 3), (v, 1), (w, 1), (y, 1), (y, 2),我需要返回
浏览 1
提问于2016-05-04
得票数 11
回答已采纳
1
回答
是否可以使用
spark
的
jdbc驱动程序将apache
spark
与jasper集成?
、
、
、
我们想使用apache
spark
进行
实时分析吗?我们目前使用hive/MR
进行
数据处理,使用mysqlsql存储
聚合
结果,并使用jasper报告
进行
分析?我们正在探索
在
hdfs或cassandra上运行apache
spark
的
过程
中
,唯一
的
问题是
spark
是否有办法与jasper服务器集成?如果不是,还有什么UI选项可以与
spark
一起使用?
浏览 1
提问于2015-02-21
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark Streaming 中管理 Kafka Offsets 的几种方式
GC调优在Spark应用中的实践
聚合路由器在视频直播应用中的优势
浅谈Hadoop在大数据中的作用以及与Spark的关系
在firefox中更新证书的几种方式
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券