腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(974)
视频
沙龙
1
回答
如
何在
scala
spark
中将
两个
json
结果
合
并为
一个
数据
帧
、
我有一段读取
json
文件位置数组的代码,并使用
spark
read
json
函数读取它。+ 代码: val dataPath = dataArr(counter)("data").arr dataLocation.foreach(i => { val rdd =
spark
.sparkContext.wholeT
浏览 78
提问于2020-09-03
得票数 0
回答已采纳
1
回答
从Python的
Scala
eqv的多列创建
一个
、
我在Python中使用下面的代码来转换来自多个列的键值(Dataframe,其中有2列InternalId和ExternalId,从
spark
返回),并在Python
中将
其合
并为
单列"body“。jsonDf = interalexternalid.select(to_
json
(struct([interalexternalid[x] for x in interalexternalid.columns])).alias("body"))
结果
浏览 3
提问于2020-04-28
得票数 0
回答已采纳
1
回答
将RDD转换为Dataframe
Spark
、
、
、
如
何在
scala
中将
具有以下结构的RDD转换为dataframe这里,RDD的每一行都包含
一个
索引Long和
一个
向量org.apache.
spark
.mllib.linalg.Vector。我希望将org.apache.
spark
.mllib.li
浏览 2
提问于2017-02-26
得票数 2
3
回答
字符串列包含通过
spark
scala
进行精确匹配的单词
、
、
我有
两个
数据
帧
,第
一个
数据
帧
包含实际
数据
(从CSV文件读取),第二个
数据
帧
包含
一个
具有多个关键字的列。即下面的Dataframe-1外观相似(我们必须搜索的地方):
数据
帧
-2:我想要的输出:我在这里使用
spark
scala
。我想要
一个
与dataframe-1中的dataframe-2完全匹配
浏览 1
提问于2021-02-12
得票数 0
1
回答
DataFrame na()填充方法和不明确引用的问题
、
我使用的是
Spark
1.3.1,其中连接
两个
数据
帧
会重复连接的列。我在外部连接
两个
数据
帧
,希望将
结果
数据
帧
发送到na().fill()方法,以便根据列的
数据
类型将空值转换为已知值。给定:df1
浏览 4
提问于2016-02-28
得票数 3
1
回答
如
何在
Scala
中向Cassandra插入
数据
帧
、
我有
一个
如下所示的
数据
框架,并希望将此
数据
插入到cassandra表中| name | id | city | .options(Map("table" -> "tablename", "keyspace"-> "keyspac
浏览 0
提问于2017-11-02
得票数 0
3
回答
如何比较SQL语句中两种
数据
的模式?
、
、
在
spark
(
如
)中,有许多方法来验证
两个
数据
帧
的架构。但是我只想在SQL中验证
两个
数据
帧
的模式,我指的是SparkSQL。中没有
数据
库(模式)的概念,但是我读到了包含模式信息等的亚稳态。编辑: 我只是在检查为什么显示create没有使用
spark
,是因为它是
一个
临时表吗?
scala
> val df1=
spark
.sql("SHOW SCHEM
浏览 6
提问于2018-09-04
得票数 1
2
回答
如
何在
dsx中使用
Scala
2.11 with
Spark
2.0笔记本的"display“功能
、
、
在dsx中,有一种方法可以在
Scala
2.11和
Spark
2.0笔记本中使用"display“(我知道可以在python笔记本中使用pixiedust)。例如: WHEREstate = 'CA' GROUP BY city ORDER BY SUM(pop) DESC")) 但我想在
scala<
浏览 3
提问于2017-01-28
得票数 3
1
回答
在Apache
Spark
Scala
中将
嵌套的
json
with array展平为单行
数据
帧
、
我正在尝试将下面的
json
扁平化成
一个
单行的
数据
帧
。我已经看过很多文章,展示了如何使用数组将复杂的/嵌套的
json
对象展平为多行。但是,我不想将
json
展平为多行。我只想要
一个
如
输出所示的单行
数据
帧
。数组索引将转换为列名。我如
何在
Apache
Spark
Scala
中实现这一点?
JSON
{ "name":&quo
浏览 39
提问于2021-08-26
得票数 1
0
回答
Scala
:用单引号替换双引号
、
、
、
、
如
何在
Scala
中将
单引号替换为双引号?我有
一个
数据
文件,其中包含一些带有"abc“(双引号)的记录。我需要将这些引号替换为单引号,并将其转换为
数据
帧
。true), .format("com.databricks.
spark
.csv
浏览 7
提问于2017-01-04
得票数 1
1
回答
在
scala
for循环中附加
数据
loop后,Dataframe变为空
、
实际上,我试图在
scala
中的for循环
中将
一个
dataframe附加到
一个
空的dataframe中。但是附加的
数据
文件每次都变成空的。(sc.emptyRDD[Row],struct_dymic) { val url_
json
_df =
spark
.read.optio
浏览 4
提问于2020-09-28
得票数 0
回答已采纳
2
回答
当编码时Row模式未知时,如何将string与Row合并以创建新的
spark
dataframe?
、
、
、
、
我已经创建了
一个
函数,它接受一行作为输入,并给出
一个
字符串作为输出。我计划将此函数应用于不同模式的各种
数据
帧
。这些
数据
帧
非常庞大,每个
数据
帧
有数百万行,但每个
数据
帧
都有
一个
定义好的模式 我想创建另
一个
函数,它将调用第
一个
函数,将函数的输出字符串与它发送到函数的行合并,并创建
一个
新的
数据
帧
,该
数据</em
浏览 46
提问于2019-10-15
得票数 0
回答已采纳
1
回答
单元测试中的
Spark
Dataframe比较以检查功能
、
、
、
、
我已经创建了一些方法来将
数据
帧
转换为所需的格式,并根据错误规则过滤多个错误检查和更新
数据
帧
。 我是
一个
在intelliJ上用
scala
编写单元测试的新手。我必须编写单元测试来将实际
数据
帧
与预期
结果
进行比较。 下面是我为
数据
帧
的pivot功能编写的单元测试用例。类似地,我必须将获得的
数据
集与预期的
数据
帧
进行比较。parserObj.pivoting
浏览 4
提问于2021-09-13
得票数 1
1
回答
如何将每个输入流中的
数据
集组合为
一个
、
、
如
何在
应用转换之前将每个火花输入流中的
数据
集组合为
一个
。为此,我希望在执行转换之前将所有DStream合
并为
一个
。 import org.apa
浏览 2
提问于2016-08-08
得票数 0
1
回答
读取
json
列和直接
数据
值列
下面的语句满足了我的需要,但它只能在
spark
-shell中运行,而不能在
scala
程序中运行。
spark
.read.
json
(dataframe.select("col_name").as[String]).schema输出。 我有
一个
解决方案,可以在
spark
-shell下运行,但不能在
s
浏览 14
提问于2020-03-12
得票数 0
1
回答
退出状态:-100。诊断:容器在*丢失*节点上释放
、
、
、
我有
两个
输入文件(
一个
在
JSON
中,另
一个
在parquet中),我试图在这
两个
大
数据
帧
上做
一个
连接,并将连接的
数据
帧
写入s3(作为
JSON
)。该作业将永远停滞不前(将联接的
JSON
写入s3)。中间持久化-持久化( memory_disk和disk_only类型)连接的df持久化
两个
输入(在连接之前),在
两个
df上执行一些操作,然后连接并写入s3
浏览 0
提问于2019-02-12
得票数 1
2
回答
如何将基于TypeSafe激活器的应用程序部署到Apache集群?
、
、
我的应用程序使用Apache作为后台
数据
处理,
并为
前端接口使用Play Framework。顺便说一下,这个应用程序是用<e
浏览 0
提问于2015-03-17
得票数 1
回答已采纳
1
回答
执行连接时返回空
数据
集
、
、
、
我正在从csv文件中读取2个
数据
帧
。然而,当我加入这
两个
dataFrames时,由于它们之间的连接,我得到了
一个
空的
数据
集。 因为我是
Scala
和
Spark
的新手,所以我需要帮助来解决这个简单的问题。 提前谢谢。
浏览 1
提问于2017-10-12
得票数 0
3
回答
阻止DataFrame.partitionBy()从架构中删除已分区的列
、
我按如下方式对DataFrame进行分区:代码给出了预期的
结果
(即按类型和类别划分的
数据
但是,"type“和"category”列将从
数据
/模式中删除。有没有办法防止这种行为?
浏览 3
提问于2016-03-23
得票数 20
回答已采纳
1
回答
如
何在
spark
中使用pandas split-apply-combine风格策略和
scala
api?
、
、
、
我有
一个
scala
函数,它接受
一个
spark
dataframe并返回
一个
单值,也就是说
两个
值。这个函数很复杂,使用在DataFrame类中定义的聚合,调用其他java库,并且不能用SQL表达。它需要整个
数据
帧
的内容来进行计算,它不能一次添加一行并建立
一个
结果
。 我有
一个
大的dataframe,其中包含
一个
列,我想用它将dataframe分成小块,并对每个小块执行上述计算。然后,我
浏览 28
提问于2020-04-22
得票数 0
点击加载更多
相关
资讯
遇见YI算法之初识Pyspark(二)
Apache Spark 2.4 内置的 Avro 数据源实战
Spark之SparkSQL
教程:Apache Spark SQL入门及实践指南!
2018年数据科学前15名的Scala库
热门
标签
更多标签
云服务器
ICP备案
实时音视频
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券