腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如
何在
spark
join
过程中
选择
动态
列
?
、
我正在尝试连接2个数据帧,在第一个DF中,我需要传递一个
动态
数量的
列
,并将其与另一个DF连接。我在这里面临的复杂性是,我有一个带有第一个DF输出的case语句。但不能通过
spark
实现相同的输出。 下面是代码片段,我已经尝试过了,并且工作正常。."+_).reduce(_+","+_) val queryStr =
spark
.sql(s"select $displayColumns, case when a.Notes is null thenb.Notes else a.Note
浏览 17
提问于2019-02-08
得票数 0
2
回答
在Scala
Spark
中连接不同数据帧时
动态
选择
多个
列
、
、
、
我有两个
spark
数据帧df1和df2。有没有一种方法可以在连接这两个数据帧时
动态
选择
输出列?下面的定义在inner
join
的情况下输出来自df1和df2的所有
列
。, df2: DataFrame , joinExprs: Column, joinType: String): DataFrame = { val dfJoinResult = df1.
join
val df2 = List(("1","7"), ("2"
浏览 5
提问于2018-02-01
得票数 3
回答已采纳
1
回答
在
spark
sql中
选择
数组类型
、
我在cassandra DB中有一个表,其中一
列
包含ip地址列表,
如
{['10.100.164.33','10.100.164.36','10.100.164.37'}。现在我想通过
spark
sql进行查询,比如
选择
其中一个ip是10.100.164.36的行。如
何在
spark
sql中查询。
浏览 4
提问于2017-05-22
得票数 0
1
回答
火花
动态
DAG比硬编码DAG慢得多,并且与硬编码DAG不同。
、
、
我在
spark
中有一个操作,应该对数据帧中的几个
列
执行。通常,有两种可能指定此类操作。DAG是不同的,当使用更多
列
而不是用于硬编码操作时,
动态
解决方案的运行时增加得更多。我很好奇如何将
动态
构造的优雅性与快速执行时间()结合起来。对于大约80
列
,这将为硬编码变体生成一个相当好的图。对于
动态
构造的查询来说,这是一个非常大的、可能不那么可并行的、速度更慢的DAG。 目前版本的
spark
(2.0.2)与DataFr
浏览 4
提问于2016-12-15
得票数 4
回答已采纳
1
回答
如
何在
spark
Java API中编写
动态
连接条件
、
我想使用
spark
Java API在Dataset上执行左外部连接。如何编写
动态
条件来匹配
join
条件中的多个
列
。 我有两个dataset对象。它们都有2
列
或更多
列
。我不能定义条件 将一
列
与另一
列
匹配的示例 dataSet = resultData.as("resultData").
join
(distinctData.as("distinctData"), resultData.col(&qu
浏览 19
提问于2019-04-23
得票数 0
回答已采纳
1
回答
以拼花格式保存数据文件会生成太多的小文件。
、
、
、
使用
Spark
,我将在一个蜂巢表中保存一个parquet格式的星星之火df。问题是,这个操作总是生成大约200个3 MBs的部分-*文件。如
何在
处理
过程中
控制输出文件的数量和分区的数量?我用
spark
.sql(" insert overwrite partition() ... ")保存df .
浏览 1
提问于2018-03-15
得票数 3
1
回答
使用
列
比例列表进行
Spark
选择
、
我正在尝试找到一种使用List[ column,我正在分解一个
列
,而不是用我的分解列传回所有我感兴趣的
列
]来进行
spark
select的好方法。
浏览 0
提问于2016-10-07
得票数 9
回答已采纳
1
回答
用INSERT INTO替换SELECT INTO子句
、
、
问题是基于搜索标准的
列
数是
动态
的。下面的
过程中
的示例是DISTANCE
列
。只有当用户
选择
一个城市时,才会返回。 ,CI.CITYNAME' ' FROM dbo.ITEM AS IT INNE
浏览 1
提问于2013-03-20
得票数 2
回答已采纳
2
回答
只从卡桑德拉拉出星火中所需的
列
,而不加载所有
列
、
、
、
使用连接器,可以直接将所需
列
从ES加载到
Spark
。然而,使用火花-卡桑德拉连接器,似乎不存在这样一个直接向前的选项来进行同样的操作。将ES中的数据读入火花--这里只有必需的
列
被从ES带到
Spark
:es_epf_df =
spark
.read.format("org.elasticsearch.
spark</em
浏览 1
提问于2020-06-18
得票数 0
回答已采纳
1
回答
在星火中加入Dataframe表演
、
我正在加入两个数据文件,它们从df.
join
读取csv文件,并使用s3连接它们。使用默认
spark
.sql.shuffle.partitions (200)时,需要9分钟才能完成。当我将
spark
.sql.shuffle.partitions改为10时,它仍然占用几乎相同的时间。
浏览 3
提问于2021-04-19
得票数 0
1
回答
在
Spark
聚合期间收集唯一元素
、
、
问题 我需要在代码中更新这一行。我该怎么做? "case StringType => concat_ws(",",collect_list(col(c)))" 仅追加现有字段中不存在的字符串。在本例中,字母"b“不会出现两次。 代码 val df =Seq( (2, 2.0, false, "b") (3, 2.0, false, "c") ).toDF(
浏览 15
提问于2019-03-18
得票数 0
回答已采纳
1
回答
如何为结构化查询的不同代码部分指定分区数?
、
我有一个
Spark
流,类似于: .
join
(anotherDataFrame, columns) .save() 在
join
步骤中,我希望
spark
.sql.adaptive.enabled是true,因为这将加快连接的速度。在repartition步骤中,我希望
spark
.sql.adaptive.enabled是false,因为如果是真的,它可能会更改分区,保存的结果将被格式化为错误的分区。如
何在</e
浏览 0
提问于2019-01-28
得票数 2
1
回答
动态
填充中的列名
、
、
、
我正在开发一个
动态
脚本,它可以
join
任何给定的pyspark。问题是文件中的列名会发生变化&连接条件的数目可能会有所不同。我可以在一个循环中处理这个问题,但是我使用一个变量名执行连接,它失败了。(我的目的是根据文件结构和联接条件
动态
填充a和b或更多
列
)a="existingFile.Id" unChangedRecords = existingFile.
join
(incrementalFile,(a==b)
浏览 2
提问于2018-02-24
得票数 0
回答已采纳
1
回答
如何从多个表中
动态
选择
适当的表名以创建联接查询
、
、
我想
动态
地创建
join
查询,其中包含以下表:表2) groupTable:包含groupId、groupName问题:与案例1一样,有两个表选项: groupRoles或userGroup。那么,我如何知道从这两个选项中
动态
选择
哪个表,以便通过关系表(在我的例子中是userGroup表)将我带到groupTable?但是要获得groupName<
浏览 2
提问于2014-03-10
得票数 0
1
回答
Visual 2013数据集未显示用于
动态
查询存储过程的列名
、
、
、
、
我使用存储
过程中
的
动态
查询作为制表器,同时在visual studio 2013中创建数据集。问题是数据
列
没有显示用于
选择
操作的参数和字段。请找到截图: 我不确定这个
动态
语句在这种情况下是否有效。任何人都知道如
何在
我的报告中使用这个存储过程作为数据源。存储
过程中
的查询。
浏览 4
提问于2015-01-23
得票数 0
回答已采纳
2
回答
如何提示排序合并联接或随机散
列
联接(并跳过广播散
列
联接)?
、
、
我对
Spark
2.1中的
join
有一个问题。
Spark
(错误的?)
选择
广播散
列
join
,尽管该表非常大(1400万行)。然后作业崩溃,因为没有足够的内存,
Spark
以某种方式尝试将广播片段持久存储到磁盘,这将导致超时。所以,我知道有一个查询提示可以强制广播连接(org.apache.
spark
.sql.functions.broadcast),但是有没有办法强制另一个连接算法呢?我通过设置
spark
.sql.autoBroadcas
浏览 32
提问于2018-01-08
得票数 7
1
回答
如果RDD不能放入
Spark
的内存中,会发生什么?
、
、
、
据我所知,
Spark
试图在内存中完成所有计算,除非你调用persist with disk storage选项。但是,如果我们不使用任何persist,那么当RDD不能放入内存时,
Spark
会做什么?
Spark
如
何在
不崩溃的情况下处理它?
浏览 0
提问于2015-09-15
得票数 6
2
回答
如何使用
Spark
广播函数
Spark
提供了一个函数broadcast来指示数据集足够小并且应该被广播。(100).as("a")val df = a.
join
(broadcast(b)).where($"a.id" === $"b.id("b") val df =
spark
.sql("select a.id, c.id from a
join
broadcast
浏览 1
提问于2018-02-27
得票数 1
回答已采纳
1
回答
左联接错误: org.apache.
spark
.sql.AnalysisException:检测到逻辑计划之间的左外部联接的隐式笛卡尔乘积
、
、
*编辑 df_joint = df_raw.
join
(df_items,on='x',how='left') Apache
Spark
2.4.5中出现标题异常 df_raw有2
列
"x“、"y”的数据,而df_items是模式的空数据框,还有其他一些
列
左连接发生在null的值上,它应该从第一个dataframe中获取整个数据,并从第二个dataframe中获取空
列
。当"X“是浮点数时,它是完全正常的,但是当我将"X”转换为
浏览 31
提问于2020-12-20
得票数 0
1
回答
如何将数据帧与特定路径上的JSON编码的行连接起来?
、
、
我希望我可以在相同的操作中做到这一点,而不是在
JOIN
之后将其转换为RDD,我假设这可以通过
Spark
SQL很好地完成。这两个对象的内容都是
动态
的,所以我事先不知道整个结构,但每个对象的顶层路径都是常量{ "element1" "element1value""element1" "element1value" }连接操作 S
浏览 2
提问于2020-01-20
得票数 1
点击加载更多
相关
资讯
Spark SQL在字节跳动数据仓库领域的优化实践
万亿级数据规模下的倾斜调优
第四范式OpenMLDB: 拓展Spark源码实现高性能Join
Spark 3.0 新特性抢先看
Spark的内存管理和调优机制
热门
标签
更多标签
云服务器
ICP备案
即时通信 IM
云直播
实时音视频
活动推荐
运营活动
广告
关闭
领券