腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如何
累积
运行
spark
sql
聚合
器
?
、
、
我目前正在处理一个使用
spark
datasets (Java语言)的项目,在该项目中,我必须创建一个从累加
器
派生的新列,该列遍历所有以前的行。即:对Dataset<CustomType>上的org.apache.
spark
.
sql
.expressions.Aggregator执行相同的操作。这里的问题是,我已经看过了所有的文档,但无法弄清楚
如何
让它以与上面相同的方式
运行
(即,我只能获得整个列的最终
聚合
,而不是每行的
累积
状态)。 我正在尝试
浏览 7
提问于2019-07-22
得票数 0
1
回答
PySpark中的有状态
聚合
函数
、
、
、
在PySpark中,我试图定义一个自定义
聚合
器
,它正在
累积
状态。在斯帕克2.3有可能吗?AFAIK,现在可以通过使用PySpark关键字调用pandas_udf,从
Spark
2.3 (cf )开始在PandasUDFType.GROUPED_AGG中定义自定义的PandasUDFType.GROUPED_AGG但是,考虑到它只是将一个函数作为参数,我认为在
聚合
过程中不可能携带状态。从Scala中,我看到可以通过扩展UserDefinedAggregateFunction或org.apache.
sp
浏览 0
提问于2018-10-02
得票数 1
1
回答
用于
Spark
的
累积
产品UDF
、
、
我在其他文章中也看到过这样做是为了数据格式:| 1 || 3 |如果我想取这个之和,我可以做一些简单的事情
spark
.
sql
我
如何
为乘法定义类似的东西(甚至
如何
在UDF中实现和)?("prod",prod)
spark
.
sql
浏览 0
提问于2020-04-09
得票数 1
回答已采纳
1
回答
如何
在pyspark dataframe中将groupby转换为reducebykey?
、
、
、
、
如何
用
spark
方式和map和reducebykey选项来做类似的逻辑。from pyspark.
sql
.functions import col, when, lit, concat, round, sum df = sc.parallelizegroupBy calculation #final_df.groupBy("col1", "col2", "col3", "col4").agg(sum("col5")
浏览 0
提问于2017-09-21
得票数 1
2
回答
使用
Spark
SQL
在Cassandra表上
运行
复杂的
SQL
查询
、
、
、
hereI有设置卡桑德拉和火花与卡桑德拉-火花连接
器
。我可以使用Scala创建RDDs。但是我想使用
Spark
SQL
在Cassandra表上
运行
复杂的
SQL
查询(
聚合
/分析函数/窗口函数),您能帮助我应该
如何
继续吗?以下是使用的查询: sqlContext.
sql
(“CREATE TEMPORARY table words |USING org.apache.
spark
.
sql
.cassandr
浏览 4
提问于2017-03-23
得票数 1
2
回答
如何
停止
Spark
Structured填充HDFS
、
、
、
我有一个在AWS EMR上
运行
的
Spark
Structured Streaming任务,它本质上是在一分钟的时间窗口内连接两个输入流。输入流有1分钟的水印。我不做任何
聚合
。我想
运行
很长一段时间,也就是“永远”,但不幸的是,
Spark
慢慢地填满了我集群上的HDFS存储,并最终因此而死亡。 似乎有两种类型的数据会
累积
。登录/var和.delta,在/mnt/tmp/...我使用
spark
-submit
运行
我的任务。
浏览 26
提问于2019-03-13
得票数 0
1
回答
如何
在
Spark
中使用自定义类型安全
聚合
器
、
、
、
星火文档描述了
如何
同时创建一个 () (又名 )和一个 () (也就是org.apache.
spark
.
sql
.expressions.Aggregator的一个子类)。我知道您可以通过
spark
.udf.register("udafName", udafInstance)注册一个使用在
sql
中的udaf,然后像使用
spark
.
sql
("SELECT udafName(在
sql
中也有使用
聚合
器</
浏览 0
提问于2018-06-28
得票数 1
回答已采纳
2
回答
不带组/
聚合
的
Spark
有子句
、
、
我想知道
spark
子句在没有GroupBY或任何
聚合
函数的
spark
中是
如何
工作的?select 1 as a having a=1
spark
.
sql</e
浏览 0
提问于2019-07-01
得票数 0
回答已采纳
1
回答
使一个函数成为.agg()在groupBy语句中的组件,将生成一个AssertionError
、
、
请注意,只有在您已经通过
运行
以下命令安装
spark
时,您才可以在本地
运行
此命令。否则,在Databricks集群上复制该问题,该集群将自动初始化星体上下文。from pyspark.
sql
import SparkSession 我的问题 我按
浏览 3
提问于2020-07-01
得票数 1
回答已采纳
1
回答
Apache -
如何
在3之后定义UserDefinedAggregateFunction?
、
、
我正在使用
Spark
3.0,为了使用用户定义的函数作为窗口函数,我需要一个UserDefinedAggregateFunction实例。从
Spark
3.0开始,UserDefinedAggregateFunction就被废弃了,就像声明的 (尽管仍然可以保持)。所以问题是:在
Spark
3.0中是否有一种正确(不反对)的方法来定义适当的UserDefinedAggregateFunction并将其用作窗口函数?
浏览 3
提问于2021-03-25
得票数 2
回答已采纳
1
回答
火花数据管线初始负荷对生产数据库的影响
、
、
我想编写一个
Spark
管道来对我的生产DB数据执行
聚合
,然后将数据写回DB。我编写管道的目的是执行
聚合
,而不是在
运行
时影响生产DB,这意味着我不希望用户在进行
聚合
时遇到滞后,也不希望DB有严重的IOPS。例如,作为
SQL
运行
的等效
聚合
查询将花费很长时间,也会耗尽RDS IOPS,这会导致用户无法获取数据--试图避免这种情况。几个问题: 一般情况下,数据
如何
加载到星火(AWS Glue)中?使用自定义
SQL
查询与自
浏览 5
提问于2022-09-12
得票数 0
1
回答
在DF上
运行
视图上的
Spark
查询吗?
、
我想问的是-我是否可以获得视图正在执行的查询,然后使用
spark
来执行查询?示例:视图查询
运行
在hive (hive上下文)上,因此效率不高。vssqlContext.
sql
("*actual query*").. 这不是一个数据集,所以我不确定它是否会更有效,但我试着想办法这样做。
浏览 5
提问于2017-09-07
得票数 2
2
回答
如何
用MLlib编写自定义转换
器
?
、
、
、
我想在scala中为
Spark
2.0中的管道编写一个自定义Transformer。到目前为止,我还不清楚copy或transformSchema方法应该返回什么。他们返回null?
如何
将其存储在转换
器
中,以便正确地使用管道序列化机制? 一个简单的转换
器
是
如何
计算单个列的平均值并填充nan值+保存这个值的呢?
浏览 5
提问于2016-11-15
得票数 3
回答已采纳
1
回答
由多个键组成的组火花类型安全
聚合
在下面的代码段中,第二个
聚合
失败(并不奇怪): import org.apache.
spark
.
sql
: SparkSessi
浏览 1
提问于2018-10-04
得票数 1
回答已采纳
1
回答
如何
在streaming
SQL
中指定基于结构化流时间窗口
、
、
我们正在使用结构化流来对实时数据执行
聚合
。我正在创建一个可配置的
Spark
作业,该作业给出了一个配置,并使用它对翻滚窗口中的行进行分组并执行
聚合
。我知道
如何
使用函数接口来做到这一点。下面是使用函数接口的代码片段 .withWatermark, "1 minute"), $"agg
浏览 0
提问于2018-06-22
得票数 1
1
回答
Apache
Spark
多个
聚合
、
、
例如,我在Scala中使用Apache
spark
对数据帧中的多个列
运行
聚合
selectcolumn2, sum(1) as count from df group by column2 实际的
聚合
比sum(1)复杂得多,但它超出了要点。上面的例子这样的查询字符串是为我想要
聚合
的每个变量编译的,我通过
Spark
sql
上下文执行每个字符串,以创建代表相关<
浏览 1
提问于2015-10-30
得票数 0
1
回答
优化LBFGS OWLQN实现
、
、
我正在寻找有关在
Spark
1.6ML库中实现并行LBFGS和OWLQN算法的文档。
浏览 2
提问于2016-08-01
得票数 2
回答已采纳
1
回答
如何
在星火数据集中创建TypedColumn并对其进行操作?
、
、
我试图使用mapGroups执行
聚合
,该
聚合
将返回一个SparseMatrix作为列之一,并对这些列进行求和。 为了提供列名,我为映射的行创建了一个case class模式。矩阵列类型为org.apache.
spark
.mllib.linalg.Matrix。如果在执行
聚合
( toDF )之前不
运行
select(sum("mycolumn"),则会得到一个类型不匹配错误(required: org.apache.
spark
.
sql
.TypedColu
浏览 6
提问于2016-07-21
得票数 0
回答已采纳
1
回答
无法理解aggregateByKey和combineByKey的工作
、
目前,我正在尝试使用Python学习各种
聚合
。 为了给我所面临的问题提供一些背景,我发现很难理解aggregateByKey函数的工作原理,用"status“来计算订单数量。
浏览 1
提问于2016-02-02
得票数 3
回答已采纳
1
回答
星火ML转换
器
-使用rangeBetween在窗口上
聚合
、
、
、
、
我想要创建自定义
Spark
转换
器
,它使用构造over window在滚动窗口中应用
聚合
功能。我希望能够在
Spark
管道中使用这个变压
器
。是否有可能将这样的窗口
聚合
放到
Spark
转换
器
中?by unixTimeMS) as cts但我不知道
如何
在
SQL<
浏览 2
提问于2017-11-03
得票数 0
回答已采纳
点击加载更多
相关
资讯
教程:Apache Spark SQL入门及实践指南!
微软开源大规模数据处理项目 Data Accelerator
什么是Spark SQL,它的作用是什么?
一文读懂Apache Spark
Waterdrop帮你快速玩转Spark数据处理
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券