使用scala函数和spark dataframe以可配置的方式应用复杂转换

、

如何以可配置的方式实现复杂的转换。我接收文件中的数据，比如csv，avro等，这些数据将保持不变，通过这个，我将创建一个数据帧，现在我需要编写具有不同转换逻辑的不同函数。使用spark scala，它将应用于dataframe。基于我们使用配置文件传递的参数，特定的<

浏览 22提问于2021-10-01得票数 1

1回答

转换数据列值并应用SHA2掩蔽逻辑

、、、

我有一个dataframe，它包含来自Hive的属性表和主表。我想删除列，然后应用掩蔽逻辑(SHA2)。将postgre中的属性配置读取为Spark/scala作业中的Dataframe。主蜂箱表输出应该是任何人，请帮助我用<em

浏览 0提问于2021-03-26得票数 0

回答已采纳

2回答

将自定义函数应用于星火数据访问组

、、、、

我有一个非常大的时间序列数据表，其中包含以下列：我计划在dataframe中使用spark，但我对如何对spark分组数据执行自定义计算感到困惑。我需要做的是：按

浏览 2提问于2016-09-20得票数 10

回答已采纳

1回答

生成Spark模式代码/持久化和重用模式

、、、、

我正在从一个Parquet数据源实现一些Spark结构的流转换。为了将数据读入流DataFrame，必须指定模式(不能自动推断)。模式确实很复杂，手动编写模式代码将是一项非常复杂的任务。目前，我正在预先创建一个批处理DataFrame (使用相同的数据源)，Spark推断模式，然后将模式保存到Scala对象，并将其用作结构化流媒体阅读器的输入。我不认为这是一个可靠

浏览 3提问于2020-11-12得票数 0

2回答

在spark* scala中编写withcolumn的泛型函数*

、、、

我正在使用下面的write列条件创建一个新的数据帧df。我将下面的write列条件用于其他数据帧too.How，将这些write列条件写成一个泛型函数，并在所有数据帧中访问它。

浏览 24提问于2020-07-27得票数 1

2回答

在熊猫(python)中，能不能将星星之火(scala)转换成数据(Python)

、、、

Dataframe是使用scala创建的。val someDF = spark.createDataFrame( spark.sparkContext.parallelize(someData), StructType(someSchema) )PySpark提供了.toPandas()来将火花数据转换成熊猫，但是scala(我可以找到)并没有对应的

浏览 1提问于2020-04-05得票数 0

回答已采纳

1回答

Spark HiveContext获取与配置单元客户端选择相同的格式

、

当配置单元表有像映射或数组这样的值时，如果你在配置单元客户端选择它，它们会显示为JSON，例如：{"a":1,"b":1}或[1,2,2]。在Spark中选择这些对象时，它们是DataFrame中的贴图/数组对象。当我使用Spark的HiveContext时，我想使用与Hive客户端相同的格式。我该怎么做呢？

浏览 1提问于2018-07-20得票数 0

1回答

使用Scala从Scala文件调用方法

、、、、

我希望能够将DataFrames打包到Scala文件中，并在R中访问它们。最终目标是创建一种方法，在Python、R和Scala中访问特定和经常使用的数据库表，而无需为每个表编写不同的库。为此，我在Scala中创建了一个jar文件，函数使用SparkSQL库查询数据库并获取我想要的DataFrames。我希望能够在R中调用这些函数，而不需要创建另一个JVM，因为Spark<

浏览 0提问于2015-10-23得票数 12

4回答

如何利用Java在星火DataFrame中应用地图功能？

、、

我试图使用Java在星火中的DataFrame上使用map函数。我在跟踪文件上写着 map(scala.Function1 f，scala.reflect.ClassTag凭据$4)通过向该DataFrame的所有行应用一个函数来返回一个新的DataFrame。在地图中使用Function1时，我需要实现所有的函数。我已经看到

浏览 1提问于2017-10-25得票数 3

2回答

Scala火花DataFrame SQL withColumn -如何使用函数(x:String)进行转换

、、、

我的目标是将列添加到现有的DataFrame中，并使用DF中现有列的转换填充这些列。我发现的所有示例都使用withColumn为转换添加列和时间().otherwise()。我希望在匹配的情况下使用定义的函数(x: string )，这允许我使用字符串函数并应用更复杂的<e

浏览 1提问于2018-04-03得票数 2

回答已采纳

7回答

如何在spark的数据中“负选择”列

、、、

这个df有"A“、"B”和"C“列。现在假设我有一个Array，它包含这个df列的名称：我想以这样的方式来做一个df.select()，这样我就可以指定哪些列不能选择。="B")) 不能将org.apache.spark.sql.DataFrame应用于

浏览 21提问于2015-07-15得票数 22

回答已采纳

1回答

queryExecution在火花数据中的用途是什么？

、

我必须了解数据对象上名为queryExecution的变量，并在控制台的输出下面找到它。但是它不确定如何帮助.Please在控制台中找到输出。scala> df.queryExecution== Parsed Logical Plan

浏览 6提问于2017-01-18得票数 6

回答已采纳

2回答

如何在Spark中实现"Cross Join“？

、

我们计划将Apache Pig代码迁移到新的Spark平台。但是当我们移动到Spark平台时，我在Spark API中找不到任何对应的东西。你有什么想法吗？

浏览 66提问于2014-07-21得票数 14

回答已采纳

1回答

Spark:加载或选择ORC格式的配置单元表

、、、、

我正在尝试加载一个用spark sql以ORC格式创建的托管配置单元表。DataFrame.scala:2086) at org.apache.spark

浏览 21提问于2017-04-20得票数 3

1回答

有效地计算宽Spark* DF的行合计*

、、、、

我有一个宽的spark数据帧，它有几千列乘以一百万行，我想计算它的行总数。到目前为止，我的解决方案如下。我使用：和library(DBI)library(rlang) col_eqn = paste0(colnames(wide_df), collapse = "+&q

浏览 0提问于2017-12-15得票数 2

5回答

重写scala代码使其更加实用

我试着教自己Scala，同时尝试编写函数式语言的惯用代码，即编写更好、更优雅、更实用的代码。这两个函数(featuresGroup1，featuresGroup2)都具有相同的签名：(Seq[String], java.time.LocalDate) => org.apache.spark.sql.DataFrame scala&

浏览 2提问于2018-05-23得票数 2

回答已采纳

1回答

SparkSession变量是由星火壳(scala)执行的，是val还是var？

、、、

我正试图将我的Spark脚本(用spark-shell编写)转换为Scala、对象、方法(def)等，因此我为spark-submit创建了JAR。我使用Spark进行了大量调用，该SQL对时区执行了大量时间戳计算。我必须显式地设置以下配置(因为每个分布式节点都可能配置了不同的默认时区)，以确保我的时区对于该方法中任何Spark函数</e

浏览 5提问于2020-02-24得票数 0

回答已采纳

2回答

如何在Spark* SQL的( java) DataFrame中更改列类型？*

、

我正在尝试使用java在spark sql中将列数据类型从long转换为int，我在scala中看到了一些示例，并进行了尝试，但这并不是wotking。

浏览 0提问于2019-01-22得票数 2

2回答

如何向DataFrame动态添加列？

、、

我正在尝试从字符串的Seq中动态地向DataFrame添加列。下面是一个示例:源dataframe如下：|id | A | B | C | D ||1 |||3 |b | c | a | d |我还有一个字符串Seq，它包含我想要添加的列的名称如果源DataFrame

浏览 4提问于2020-01-20得票数 2

回答已采纳

3回答

Dataframe API与Spark.sql [重复]

、、

这个问题在这里已经有答案了：在Spark SQL中编写SQL与使用Dataframe API(4个答案) 4天前就关门了。用Dataframe API格式而不是Spark.sql查询编写代码有什么显著的优势吗？我想知道催化剂优化器是否也会对spark.sql查询起作用。

浏览 103提问于2021-02-25得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

转换数据列值并应用SHA2掩蔽逻辑

将自定义函数应用于星火数据访问组

生成Spark模式代码/持久化和重用模式

在spark* scala中编写withcolumn的泛型函数*

在熊猫(python)中，能不能将星星之火(scala)转换成数据(Python)

Spark HiveContext获取与配置单元客户端选择相同的格式

使用Scala从Scala文件调用方法

如何利用Java在星火DataFrame中应用地图功能？

Scala火花DataFrame SQL withColumn -如何使用函数(x:String)进行转换

如何在spark的数据中“负选择”列

queryExecution在火花数据中的用途是什么？

如何在Spark中实现"Cross Join“？

Spark:加载或选择ORC格式的配置单元表

有效地计算宽Spark* DF的行合计*

重写scala代码使其更加实用

SparkSession变量是由星火壳(scala)执行的，是val还是var？

如何在Spark* SQL的( java) DataFrame中更改列类型？*

如何向DataFrame动态添加列？

Dataframe API与Spark.sql [重复]

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐