腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
摧毁星火DataFrame
、
、
、
、
我
使用
的
是火花和
Scala
。
Spark
版本
的
1.5和我正试图
将
具有名称值组合
的
输入数据name转
换为
一个
新
的
数据name,其中
所有
的名称都被转
换为
列
,并将值转
换为
行
。Country UK 4 State MH 5 State NJ
浏览 10
提问于2016-03-02
得票数 5
2
回答
使用
Scala
将
Spark
中
的
所有
新
行
转
换为
新
列
、
、
、
我有一个数据帧,它有固定
的
列
,如m1_amt to m4_amt,包含以下格式
的
数据: +------+----------+----------+----------+-----------++------+----------+----------+----------+-----------+ 我尝试
将
每个
新
行
转
换为
一个
新
列
| 7
浏览 22
提问于2020-01-01
得票数 1
回答已采纳
2
回答
如何在不从DataFrame转换和访问数据集
的
情况下向Dataset添加
列
?
、
我知道
使用
.withColumn()向星火.withColumn()添加
新
列
的
方法,以及返回DataFrame
的
UDF。我还知道,我们可以
将
结果DataFrame转
换为
DataSet。是否有一种“面向对象
的
方式”来访问
列
(而不是
将
列名作为字符串传递),就像我们以前
使用
RDD那样,用于追加一个
新
列
。 如何在地图、过滤器等正常操作
中
访问
新
浏览 1
提问于2016-11-15
得票数 11
回答已采纳
1
回答
将
StringType
列
添加到现有的DataFrame
中
,然后应用默认值
、
、
、
Scala
2.10在这里
使用
Spark
1.6.2。我有一个与类似的(但不是相同
的
)问题,然而,被接受
的
答案不是,它假定了关于火花
的
某种“预先知识”;因此我无法复制它或理解它。(更重要
的
是,),这个问题也仅限于向现有的dataframe
中
添加一个
新
列
,而我需要添加一个
列
以及数据中
所有
现有
行
的
值。因此,我希望向现有的DataFrame添加一
列
浏览 4
提问于2016-10-10
得票数 7
回答已采纳
1
回答
DataFrame
中
的
列
标题取消透视(
Spark
Scala
)
、
、
、
Header 2 | null | null | null实际上,我试图
将
每一
列
中
的
标头名称
转
置为它们在单个
列
中
的
值,该
列
将
接收
新
的
标头名称。
行
中
的
每个值也将是
新
列</e
浏览 17
提问于2021-06-08
得票数 0
回答已采纳
1
回答
Spark
在添加随机双列时,在
所有
行
中都有重复值。
、
、
我试图在dataframe
中
添加一个
新
列
。
新
列
包含随机双值。该问题是DataFrame中
所有
行
的
新
列
中
的
值重复。我
使用
scala
.util.Random类来生成。我试图简单地向dataframe添加一个
新
列
,就像在类似的帖子
中
建议
的
那样。我试图
将
DataFr
浏览 2
提问于2019-04-26
得票数 2
回答已采纳
2
回答
将
拼花文件从S3加载到DynamoDB
、
、
、
、
我一直在寻找从S3到DynamoDB加载Parquet文件
的
选项(基本上是空
的
和还原
的
)。拼花文件本身是通过运行在EMR集群上
的
火花作业创建
的
。这里有几件事要记住, 文件
将
包含数百万行(比如1000万
行
),因此需要一个有效
的
解决方案。我相信boto (即使是批处理写入)可能没有那么有效?
浏览 0
提问于2019-04-23
得票数 1
2
回答
在星火中向DataFrame添加一个
新
列
、
、
、
、
我希望向DataFrame
中
的
Spark
(
Scala
)
中
添加一个带有
行
id
的
新
列
。这就是我所采取
的
方法。我正在创建一个带有索引id
的
新
行
和一个包含了另一个StructType
的
新
StructField。$$anonfun$6.apply(SQLContext.
scala
:492) at org.apac
浏览 4
提问于2016-05-02
得票数 0
回答已采纳
2
回答
将
RDD[String]转
换为
RDD[myclass]
、
、
我正在尝试
将
RDDString转
换为
RDDPicture,但做不到。如果我能够设法
将
RDD转
换为
RDDPicture,我将
使用
def hasValidCountry来检查图片元
的
纬度和经度值是否有效。在此之后,我
将
尝试检查用户标记在图片类
中
的
def hasTags
中
是否有效。我遇到
的
问题是: 已发现
的
scala
.collection.immutable.Strin
浏览 4
提问于2020-11-14
得票数 0
回答已采纳
1
回答
创建具有嵌套结构
的
DataFrame并从输入表填充数据
、
、
我正在
使用
Scala
中
的
Spark
,希望
将
现有的数据集(dataframe)转
换为
包含嵌套结构
的
新
表。columnB columnC columnD columnE 示例输出: columnA columnB columnC columnF:{columnD,columnE} (创建一个同时包含D和E作为嵌套结构
的
新
列
) 转换columnA-C很简单,因为我可以
使用</em
浏览 25
提问于2021-08-12
得票数 0
4
回答
如何利用Java在星火DataFrame
中
应用地图功能?
、
、
我试图
使用
Java在星火中
的
DataFrame上
使用
map函数。我在跟踪文件上写着 map(
scala
.Function1 f,
scala
.reflect.ClassTag凭据$4)通过向该DataFrame
的
所有
行
应用一个函数来返回一个
新
的
DataFrame。在地图中
使用
Function1时,我需要实现
所有
的函数。我已经看到了一些与此相关
的
,但是所提供
浏览 1
提问于2017-10-25
得票数 3
1
回答
PySpark -当值为"t“和"f”时,如何
使用
模式读取BooleanType
、
、
、
我
使用
StructType定义了一个模式,用于读取Redsfhit
中
的
数据帧。该表具有350+
列
,其中许多
列
被配置为布尔值。at
scala
.collection.immutable.StringOps.toBo
浏览 1
提问于2017-11-22
得票数 3
1
回答
如何编写excel代码来用程序导出
的
数据更新excel工作表?
、
在这里,我尝试编写一个excel代码,它可以用来自数据
转
储
的
更新信息自动更新
行
(原始数据来自以前
的
转
储,只想让excel表与数据
转
储保持最新,并
使用
户输入
的
数据与数据
转
储数据保持一致)。代码应该比较每行前4
列
中
的
值,以获得同一
列
上整个工作表
中
重复
的
数据;如果它发现一个重复
行
具有相同
的
数据,它将
浏览 2
提问于2016-02-22
得票数 0
2
回答
星火
Scala
FoldLeft在集群
中
运行时生成StackOverflow
、
、
、
我
使用
下面的代码来重新构造一个数据格式,
使用
它
的
行
来进行整形。dataframe包含产品更改其ID
的
日期,但是为了将其与包含事务
的
巨大
的
其他数据date连接起来,我需要一个
新
的
列
来定义有效
的
ID范围。例如,如果产品A更改为产品B,生效日期为01/01,然后更改为产品C生效日期为03/01,则需要同一
行
中
的
开始日期和结束日期,这
浏览 0
提问于2018-09-04
得票数 2
回答已采纳
1
回答
Zeppelin UI OOM
、
我在齐柏林飞艇中有一项繁重
的
任务,当我多次运行该段落时,齐柏林飞艇
的
/jobs状态页面
将
返回HTTP500错误和OOM。我在yarn上运行
spark
的
客户端模式。
浏览 1
提问于2017-03-14
得票数 2
1
回答
将
sql.ColumnName强制转
换为
Double
、
、
、
、
我需要调用
scala
.math.pow来计算一个数字,但是在
将
scala
sql
中
创建
的
列
转
换为
双精度值时遇到了问题。我有一个
spark
sql数据框,它有一个
列
,我试图
使用
此UDL将其转
换为
双精度。val toDouble = udf[Double
浏览 3
提问于2016-12-02
得票数 0
1
回答
Sparkr
将
DF写入csv/txt文件
、
、
嗨,我在做纱线模式
的
sparkR。我看到有write.df,但是它会写拼花文件。
浏览 5
提问于2016-01-21
得票数 2
回答已采纳
2
回答
Apache从带有Windows
的
DataFrame编写
、
、
我在一个基于Unix
的
集群
中
运行ApacheSpark3.1.2,为基于Windows
的
摄取系统准备CSV文件。当Windows系统摄取由集群
的
Spark
导出创建
的
CSV文件时,它无法解析CSV,因为
新
的
行
是LF \n Unix样式
的
新
行
,而Windows系统正在等待CRLF \r\n样式
行
的
结尾。是否有一种方法可以
将
Apach
浏览 3
提问于2022-03-07
得票数 0
回答已采纳
1
回答
Scala
中
的
Spark
分组贴图UDF
、
、
我正在尝试编写一些代码,使我能够在数据帧
的
一组
行
上计算一些操作。在PySpark
中
,这可以通过定义类型为GROUPED_MAP
的
Pandas UDF来实现。然而,在
Scala
中
,我只找到了一种创建自定义聚合器(UDAF)或传统UDF
的
方法。 我
的
临时解决方案是生成一个关键字列表,该列表将对我
的
组进行编码,这将允许我过滤数据帧并对数据帧
的
每个子集执行操作。然而,这种方法并不是最优
的
,而且速度非常慢。执
浏览 2
提问于2020-04-08
得票数 2
1
回答
Spark
Scala
-通过有条件地检查其他
列
的
<N>数,
将
新
列
添加到数据帧/数据
中
、
、
、
下面是
将
遗留代码转
换为
spark
scala
的
场景。任何指针都将受到高度赞赏。场景:需要在有条件地检查20 - 22个其他
列
值
的
基础上,
使用
"withColumn“向dataframe/dataset添加一个
新
列
,然后派生这个
新
列
值。关于如何在
spark
Scala
中
实现这一点有什么建议吗?非常感谢。我已经尝
浏览 19
提问于2021-02-06
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
4种方法,在Word里面的已有表格中插入新的行和列
Spark SQL DataFrame与RDD交互
第四范式OpenMLDB: 拓展Spark源码实现高性能Join
Apache Spark 2.4 内置的 Avro 数据源实战
Spark机器学习入门实例:大数据集二分类
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券