腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
Spark
/
Scala
根据
列
值
减少
组
中
的
行数
、
、
、
、
我想在基于以下条件
减少
每个
组
中
的
行数
的
意义上实现网格化:-如果单元
列
在每个
组
中
的
行上有负值和正值,则进行算术求和。最后一行将有来自金额较多
的
行
的
Amt。-如果单位在
组
中
只有正值或负值,则我们按原样传递所有行+-----+------+----+-----+ |store|prod
浏览 17
提问于2019-08-13
得票数 0
2
回答
星星之火:得到最大
的
连续递减值
、
、
、
、
我
的
要求是得到
值
减少
的
最大计数。下面是我
的
输入数据集:| id| amount|| 1| 10.0|| 1| 7.0|| 2| 60.0|| 3| 90.0|| 3| 90.0|我所需
的
结果如下(新
列
)是基于
组
浏览 3
提问于2021-03-08
得票数 2
回答已采纳
1
回答
如何将arrays[String]
列
转换为字符串列
、
、
、
在
scala
+
spark
中
,我有一个包含两
列
Array[String]
的
数据我压缩了这两
列
以尝试过滤它,但是我不知道如何
使用
.filter()在Row of Array[Stri
浏览 0
提问于2019-08-10
得票数 1
回答已采纳
6
回答
如何计算星火数据表
中
的
列
数?
、
、
、
我在星火中有这个数据,我想计算其中可用
列
的
数量。我知道如何计数列
中
的
行数
,但我希望计数列数。val df1 = Seq( ("
spark
", "
scala
", "2015-10-15",
浏览 0
提问于2018-07-27
得票数 17
回答已采纳
1
回答
Scala
中
的
Spark
分组贴图UDF
、
、
我正在尝试编写一些代码,使我能够在数据帧
的
一
组
行上计算一些操作。在PySpark
中
,这可以通过定义类型为GROUPED_MAP
的
Pandas UDF来实现。然而,在
Scala
中
,我只找到了一种创建自定义聚合器(UDAF)或传统UDF
的
方法。 我
的
临时解决方案是生成一个关键字列表,该列表将对我
的
组
进行编码,这将允许我过滤数据帧并对数据帧
的
每个子集执行操作。然而,这种方法并不是最优
的
,
浏览 2
提问于2020-04-08
得票数 2
3
回答
使用
python驱动程序计算Cassandra
的
列
族
中
的
“行”
、
、
如何
使用
python驱动更有效地计算Cassandra
列
家族
中
的
“行”?我
使用
以下代码:from sys import stdout servers = ['server1', 'server2
浏览 1
提问于2016-04-14
得票数 1
2
回答
为什么$不能处理String类型
的
值
(并且只直接处理字符串文本)?
、
、
" val Date = "Date"} 然后,我想按
列
对
浏览 2
提问于2018-01-11
得票数 2
回答已采纳
1
回答
DataFrame na()填充方法和不明确引用
的
问题
、
我
使用
的
是
Spark
1.3.1,其中连接两个数据帧会重复连接
的
列
。我在外部连接两个数据帧,希望将结果数据帧发送到na().fill()方法,以便
根据
列
的
数据类型将空
值
转换为已知
值
。我看到有一个dataFrame.withColumnRenamed方法,但我只能重命名一
列
。我有涉及多个
列
的
连接。我是否只需要确保存在一
组
惟一
的
列名
浏览 4
提问于2016-02-28
得票数 3
2
回答
MongoTypeConversionException:即使显式架构不包含NullTypes,也无法
使用
Mongo
Spark
Connector将字符串强制转换为NullType
、
、
、
("collection", collectionName).load() 对于结果DataFrame
中
的
data
列
,我得到以下类型: StructType(StructField(configurationName因此,在某些
列
中
至少有一些类型是NullType。
根据
Writing null values to Parquet in
Spark
when the NullType is inside a StructType,我尝试通过将所有Nul
浏览 161
提问于2021-08-12
得票数 1
3
回答
第一个也是最后一个方法:
scala
,
spark
、
在Pyspark
中
,我们有:第一个()函数返回
列
中
的
第一个元素,当ignoreNulls设置为True时,它返回第一个非空元素,()函数返回
列
中
的
最后一个元素,当ignoreNulls设置为True时,我想知道,我们是否有相同
的
scala
方法。 提前谢谢你。
浏览 21
提问于2022-10-10
得票数 0
回答已采纳
1
回答
火花加入最佳匹配效率问题
、
、
我有两个DataFrames:我需要在两个列上与df_1完全匹配,在第三个列上与df_2保持最佳匹配。最好
的
匹配,我
的
意思是有一个:许多关系从左到右,但我只想得到最好
的
比赛在右手边
的
长度。虽然我已经完成了这个工作,但我得到了糟糕
的
性能。我已经尝试了以下解决方案,但仍未取得任何进展: broadcasting df_2 (在col1和col1上掉得太大,而
使用
like on col3
浏览 3
提问于2019-10-14
得票数 0
3
回答
如何计算DataFrame
中
的
移动中值?
、
、
、
、
是否有一种方法可以计算星火中某个属性
的
移动中间?我本来希望可以
使用
一个窗口函数(通过
使用
rowsBetween(0,10)定义一个窗口)来计算移动中值,但是没有计算它
的
功能(类似于average或mean)。
浏览 10
提问于2017-05-19
得票数 3
3
回答
spark
-shell和
scala
CLI客户端有什么区别吗?
、
spark
-shell和
scala
CLI客户端提供了类似的功能;它们之间有什么区别吗?
浏览 1
提问于2016-12-31
得票数 2
1
回答
对标签
列
使用
窗口化函数后,XGBoost失败
、
、
、
我已经成功地训练了一个XGBoost模型,其中trainDF是一个包含两
列
的
数据帧:features和label,其中我们有11k 1和57M 0(不平衡数据集)。一切都很好。num_cores, 然后,我想用一些窗口来改变y标签,以便在每个
组
中
trainDF
的
"label"
列
中
没有NA%s,并且类型仍为doubl
浏览 1
提问于2018-07-12
得票数 0
2
回答
使用
Scala
在内存
中
运行地理空间查询
、
、
、
有没有办法在
Scala
中
运行地理空间查询,给定一
组
经度/经度坐标,
根据
距离找到最近
的
位置?查询可能需要在内存
中
运行。 这组
值
大约是一百万个纬度/纬度
的
坐标。我试图在
Spark
中
做到这一点,但我找到
的
唯一解决方案是,但我不能让它在
Spark
1.6和
Scala
2.11上工作,所以我尝试定制解决方案。查询示例:给定wgs84坐标
中
<
浏览 3
提问于2016-01-29
得票数 4
1
回答
如何在不
使用
数据帧
的
情况下将一行分解为多行?
、
我已经创建了数据帧,用于
根据
分隔符将一行分解为多行。我已经
使用
了explode函数来做同样
的
事情。我想知道我是否可以跳过这里
的
数据帧
的
使用
,只
使用
SparkSQL来执行这个操作。
浏览 1
提问于2019-04-13
得票数 0
1
回答
在不
使用
collect
的
情况下高效地迭代
spark
数据帧
、
、
我有一个有2000万条记录
的
巨大数据帧,我需要迭代数据帧df1,逐行读取,并
根据
df3
的
列
值
构造另外两个数据帧df2和df3作为输出。 Input - df1有20
列
和2000万条记录。Output -df2有4
列
,将
根据
df1
中
的
列
值
创建2000万条记录。Output - df3有20
列
,将
根据
df1
中
的
<e
浏览 0
提问于2020-04-09
得票数 0
3
回答
使用
火花放电过滤和计数星火数据
中
的
负/正值?
、
、
我不知道如何在一
列
中
使用
pyspark筛选正负值,您能帮忙吗?提前谢谢。
浏览 4
提问于2018-09-14
得票数 4
回答已采纳
1
回答
scala
:用成千上万
的
列
逐行更新巨大
的
数据格式
、
、
、
这是另一个未解决
的
的
后续,该任务非常简单,即
根据
前几列
的
信息更新大量
列
(大约10,000)。
行数
约为100米,数据大小在兆字节范围内,排除了collect方法。在几百
列
的
情况下,
使用
UDF
的
逐
列
方法失败(1500
列
不能这样做)。此外,看来大部分时间都是由星火公司
使用
大约100%-200%
的
CPU (与其他
使用
数十个核心
的
浏览 5
提问于2022-07-25
得票数 0
回答已采纳
2
回答
在
Scala
/
Spark
中有条件地映射CSV文件
中
的
行,以生成另一个CSV文件
、
、
、
我对
Scala
/
Spark
非常陌生,我已经陷入了困境。从几个星期以来,我一直在努力为
Scala
2.11.8上一个看似简单
的
问题找到解决方案,但一直未能找到一个很好
的
解决方案。我有一个接近150 GB
的
csv格式
的
大型数据库,其中有大量
的
空
值
,需要
根据
各个
列
的
值
进行
减少
和清理。(在dataset
中
,如果
列</
浏览 1
提问于2016-07-30
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
第四范式OpenMLDB: 拓展Spark源码实现高性能Join
教程:Apache Spark SQL入门及实践指南!
数据质量和验证检查
使用Spark将本地文件读取并封装为DataFrame的完整指南
Spark机器学习模块开发环境部署与实例
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券