腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
scala
函数
和
spark
dataframe
以
可
配置
的
方式
应用
复杂
转换
、
如何以可
配置
的
方式
实现
复杂
的
转换
。我接收文件中
的
数据,比如csv,avro等,这些数据将保持不变,通过这个,我将创建一个数据帧,现在我需要编写具有不同
转换
逻辑
的
不同
函数
。
使用
spark
scala
,它将
应用
于
dataframe
。基于我们
使用
配置
文件传递
的
参数,特定
的<
浏览 22
提问于2021-10-01
得票数 1
1
回答
转换
数据列值并
应用
SHA2掩蔽逻辑
、
、
、
我有一个
dataframe
,它包含来自Hive
的
属性表
和
主表。我想删除列,然后
应用
掩蔽逻辑(SHA2)。将postgre中
的
属性
配置
读取为
Spark
/
scala
作业中
的
Dataframe
。主蜂箱表输出应该是任何人,请帮助我用<em
浏览 0
提问于2021-03-26
得票数 0
回答已采纳
2
回答
将自定义
函数
应用
于星火数据访问组
、
、
、
、
我有一个非常大
的
时间序列数据表,其中包含以下列: 我计划在
dataframe
中
使用
spark
,但我对如何对
spark
分组数据执行自定义计算感到困惑。我需要做
的
是: 按
浏览 2
提问于2016-09-20
得票数 10
回答已采纳
1
回答
生成
Spark
模式代码/持久化
和
重用模式
、
、
、
、
我正在从一个Parquet数据源实现一些
Spark
结构
的
流
转换
。为了将数据读入流
DataFrame
,必须指定模式(不能自动推断)。模式确实很
复杂
,手动编写模式代码将是一项非常
复杂
的
任务。目前,我正在预先创建一个批处理
DataFrame
(
使用
相同
的
数据源),
Spark
推断模式,然后将模式保存到
Scala
对象,并将其用作结构化流媒体阅读器
的
输入。我不认为这是一个可靠
浏览 3
提问于2020-11-12
得票数 0
2
回答
在
spark
scala
中编写withcolumn
的
泛型
函数
、
、
、
我正在
使用
下面的write列条件创建一个新
的
数据帧df。我将下面的write列条件用于其他数据帧too.How,将这些write列条件写成一个泛型
函数
,并在所有数据帧中访问它。
浏览 24
提问于2020-07-27
得票数 1
2
回答
在熊猫(python)中,能不能将星星之火(
scala
)
转换
成数据(Python)
、
、
、
Dataframe
是
使用
scala
创建
的
。val someDF =
spark
.createDataFrame(
spark
.sparkContext.parallelize(someData), StructType(someSchema) )PySpark提供了.toPandas()来将火花数据
转换
成熊猫,但是
scala
(我可以找到)并没有对应
的
浏览 1
提问于2020-04-05
得票数 0
回答已采纳
1
回答
Spark
HiveContext获取与
配置
单元客户端选择相同
的
格式
、
当
配置
单元表有像映射或数组这样
的
值时,如果你在
配置
单元客户端选择它,它们会显示为JSON,例如:{"a":1,"b":1}或[1,2,2]。在
Spark
中选择这些对象时,它们是
DataFrame
中
的
贴图/数组对象。当我
使用
Spark
的
HiveContext时,我想
使用
与Hive客户端相同
的
格式。 我该怎么做呢?
浏览 1
提问于2018-07-20
得票数 0
1
回答
使用
Scala
从
Scala
文件调用方法
、
、
、
、
我希望能够将DataFrames打包到
Scala
文件中,并在R中访问它们。最终目标是创建一种方法,在Python、R
和
Scala
中访问特定
和
经常
使用
的
数据库表,而无需为每个表编写不同
的
库。为此,我在
Scala
中创建了一个jar文件,
函数
使用
SparkSQL库查询数据库并获取我想要
的
DataFrames。我希望能够在R中调用这些
函数
,而不需要创建另一个JVM,因为
Spark<
浏览 0
提问于2015-10-23
得票数 12
4
回答
如何利用Java在星火
DataFrame
中
应用
地图功能?
、
、
我试图
使用
Java在星火中
的
DataFrame
上
使用
map
函数
。我在跟踪文件上写着 map(
scala
.Function1 f,
scala
.reflect.ClassTag凭据$4)通过向该
DataFrame
的
所有行
应用
一个
函数
来返回一个新
的
DataFrame
。在地图中
使用
Function1时,我需要实现所有的
函数
。我已经看到
浏览 1
提问于2017-10-25
得票数 3
2
回答
Scala
火花
DataFrame
SQL withColumn -如何
使用
函数
(x:String)进行
转换
、
、
、
我
的
目标是将列添加到现有的
DataFrame
中,并
使用
DF中现有列
的
转换
填充这些列。 我发现
的
所有示例都
使用
withColumn为
转换
添加列
和
时间().otherwise()。我希望在匹配
的
情况下
使用
定义
的
函数
(x: string ),这允许我
使用
字符串
函数
并
应用
更
复杂
的
<e
浏览 1
提问于2018-04-03
得票数 2
回答已采纳
7
回答
如何在
spark
的
数据中“负选择”列
、
、
、
这个df有"A“、"B”
和
"C“列。现在假设我有一个Array,它包含这个df列
的
名称:我想
以
这样
的
方式
来做一个df.select(),这样我就可以指定哪些列不能选择。="B")) 不能将org.apache.
spark
.sql.
DataFrame
应用
于
浏览 21
提问于2015-07-15
得票数 22
回答已采纳
1
回答
queryExecution在火花数据中
的
用途是什么?
、
我必须了解数据对象上名为queryExecution
的
变量,并在控制台
的
输出下面找到它。但是它不确定如何帮助.Please在控制台中找到输出。
scala
> df.queryExecution== Parsed Logical Plan
浏览 6
提问于2017-01-18
得票数 6
回答已采纳
2
回答
如何在
Spark
中实现"Cross Join“?
、
我们计划将Apache Pig代码迁移到新
的
Spark
平台。但是当我们移动到
Spark
平台时,我在
Spark
API中找不到任何对应
的
东西。你有什么想法吗?
浏览 66
提问于2014-07-21
得票数 14
回答已采纳
1
回答
Spark
:加载或选择ORC格式
的
配置
单元表
、
、
、
、
我正在尝试加载一个用
spark
sql
以
ORC格式创建
的
托管
配置
单元表。
DataFrame
.
scala
:2086) at org.apache.
spark
浏览 21
提问于2017-04-20
得票数 3
1
回答
有效地计算宽
Spark
DF
的
行合计
、
、
、
、
我有一个宽
的
spark
数据帧,它有几千列乘以一百万行,我想计算它
的
行总数。到目前为止,我
的
解决方案如下。我
使用
:
和
library(DBI)library(rlang) col_eqn = paste0(colnames(wide_df), collapse = "+&q
浏览 0
提问于2017-12-15
得票数 2
5
回答
重写
scala
代码使其更加实用
我试着教自己
Scala
,同时尝试编写
函数
式语言
的
惯用代码,即编写更好、更优雅、更实用
的
代码。这两个
函数
(featuresGroup1,featuresGroup2)都具有相同
的
签名:(Seq[String], java.time.LocalDate) => org.apache.
spark
.sql.
DataFrame
scala
&
浏览 2
提问于2018-05-23
得票数 2
回答已采纳
1
回答
SparkSession变量是由星火壳(
scala
)执行
的
,是val还是var?
、
、
、
我正试图将我
的
Spark
脚本(用
spark
-shell编写)
转换
为
Scala
、对象、方法(def)等,因此我为
spark
-submit创建了JAR。我
使用
Spark
进行了大量调用,该SQL对时区执行了大量时间戳计算。我必须显式地设置以下
配置
(因为每个分布式节点都可能
配置
了不同
的
默认时区),
以
确保我
的
时区对于该方法中任何
Spark
函数</e
浏览 5
提问于2020-02-24
得票数 0
回答已采纳
2
回答
如何在
Spark
SQL
的
( java)
DataFrame
中更改列类型?
、
我正在尝试
使用
java在
spark
sql中将列数据类型从long
转换
为int,我在
scala
中看到了一些示例,并进行了尝试,但这并不是wotking。
浏览 0
提问于2019-01-22
得票数 2
2
回答
如何向
DataFrame
动态添加列?
、
、
我正在尝试从字符串
的
Seq中动态地向
DataFrame
添加列。下面是一个示例:源
dataframe
如下:|id | A | B | C | D ||1 |||3 |b | c | a | d |我还有一个字符串Seq,它包含我想要添加
的
列
的
名称如果源
DataFrame
浏览 4
提问于2020-01-20
得票数 2
回答已采纳
3
回答
Dataframe
API与
Spark
.sql [重复]
、
、
这个问题在这里已经有答案了: 在
Spark
SQL中编写SQL与
使用
Dataframe
API(4个答案) 4天前就关门了。用
Dataframe
API格式而不是
Spark
.sql查询编写代码有什么显著
的
优势吗? 我想知道催化剂优化器是否也会对
spark
.sql查询起作用。
浏览 103
提问于2021-02-25
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
教程:Apache Spark SQL入门及实践指南!
大数据有道之spark筛选去重
大数据有道之spark选择去重
Spark SQL,DataFrames 以及 Datasets 编程指南
Spark之SparkSQL
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券