基于另一列的新列和spark中的值更改

基于另一列的新列和Spark中的值更改是指在Spark中根据一个或多个已有列的值进行计算，生成一个新的列，并对某些列的值进行修改。

在Spark中，可以使用DataFrame或Dataset来处理数据。DataFrame是一种分布式的数据集合，类似于关系型数据库中的表，而Dataset是对DataFrame的扩展，提供了类型安全的API。

要基于另一列创建新列，可以使用Spark的内置函数或自定义函数。内置函数包括数学函数、字符串函数、日期函数等，可以根据具体需求选择合适的函数进行计算。例如，可以使用withColumn方法来添加新列，该方法接受两个参数，第一个参数是新列的名称，第二个参数是计算新列值的表达式。

示例代码如下：

import org.apache.spark.sql.functions._

val df = spark.read.format("csv").load("data.csv")  // 加载数据文件
val newDF = df.withColumn("newColumn", col("column1") + col("column2"))  // 基于column1和column2创建新列newColumn，值为两列之和

在上述示例中，使用了withColumn方法将新列"newColumn"添加到DataFrame中，该新列的值通过将"column1"和"column2"的值相加得到。

对于修改列的值，可以使用withColumn方法结合条件表达式来实现。例如，可以使用when和otherwise函数来根据条件修改列的值。

示例代码如下：

val modifiedDF = df.withColumn("column3", when(col("column1") > 10, "A").otherwise("B"))  // 如果column1大于10，则将column3的值设为"A"，否则设为"B"

在上述示例中，使用了when和otherwise函数来根据条件判断，如果"column1"的值大于10，则将"column3"的值设为"A"，否则设为"B"。

对于Spark中的值更改，可以使用withColumn方法结合条件表达式来实现。例如，可以使用when和otherwise函数来根据条件修改列的值。

示例代码如下：

val updatedDF = df.withColumn("column4", when(col("column1") === 0, 1).otherwise(col("column1")))  // 如果column1的值为0，则将column4的值设为1，否则保持column1的值不变

在上述示例中，使用了when和otherwise函数来根据条件判断，如果"column1"的值为0，则将"column4"的值设为1，否则保持"column1"的值不变。

以上是基于另一列的新列和Spark中的值更改的解释和示例。对于具体的应用场景和推荐的腾讯云相关产品和产品介绍链接地址，可以根据实际需求和具体情况进行选择和提供。

页面内容是否对你有帮助？

有帮助

没帮助

如何设置Spark DataGrid的页眉样式

、

如何更新Spark DataGrid中header parts的外观？这是一篇如何设置Spark DataGrid的标题背景颜色，标题文本颜色，列分隔符和排序箭头指示器符号颜色的社区维基文章。

浏览 0提问于2013-03-21得票数 2

回答已采纳

1回答

我正在寻找一种方法来将列spark DF附加到现有的Hive表中，我正在使用下面的代码来覆盖该表，但只有当df模式和hive表模式相等时才有效，但有时我需要添加一列，因为模式不匹配，所以它不起作用。有没有一种方法可以将df附加为列？或者我必须让ALTER TABLE在spark.sql()中添加列？ temp = spark.table('temp') temp.write.mode('overwrite').insertInto(datalab + '.' + table,overwrite=True) 希望我的问题是可以理解的，谢谢。

浏览 21提问于2021-10-25得票数 0

3回答

如何用新列覆盖Spark dataframe中的整个现有列？

、、、、

我想用一个新的列覆盖一个spark列，它是一个二进制标志。我尝试直接覆盖列id2，但为什么它不能像Pandas中的原地操作那样工作？如何在不使用without column ()创建新列和使用drop()删除旧列的情况下做到这一点？我知道spark dataframe是不可变的，是因为这个原因，还是有一种不同的方法可以在不使用withcolumn() & drop()的情况下进行覆盖？ df2 = spark.createDataFrame( [(1, 1, float('nan')), (1, 2, float(5)), (1, 3, f

浏览 0提问于2017-06-19得票数 15

2回答

Hive与Spark哈希函数产生不同的结果

、、

我有两份工作做了完全相同的事情。一个在Hive中，另一个在Spark中。结果中唯一的区别是其中一列是经过散列处理的字符串。因此，在调用hash()时，hive和Spark中的结果是不同的。我确实理解使用了不同的库。但我想知道(如果可能的话)如何配置Spark以产生与hive相同的结果？是否有可能找出散列函数(例如murmur3)并在两个引擎中使用它？也许可以创建一个Spark udf来产生与hive hash()函数相同的结果？

浏览 0提问于2017-11-21得票数 3

1回答

使用另一列中的键查找MapType列中的值

、、、、

我有一个有两列的Spark流数据帧。一个Integer id列和一个MapType列，其中Integer Id作为键，JSON对象作为值。 --------------------------------------------------------------------------------------------------------------- id objects -----------------------------------------------------------------------------------------------

浏览 4提问于2018-08-02得票数 3

回答已采纳

3回答

spark中的null和NaN的区别？如何应对？

、、、、

在我的DataFrame中，有一些列分别包含null和NaN的值，例如： df = spark.createDataFrame([(1, float('nan')), (None, 1.0)], ("a", "b")) df.show() +----+---+ | a| b| +----+---+ | 1|NaN| |null|1.0| +----+---+ 它们之间有什么不同吗？如何处理它们呢？

浏览 0提问于2017-05-10得票数 30

回答已采纳

1回答

使用jdbc驱动程序读取大型表时的超时和内存不足错误

、、、

我正在尝试使用scala中spark的原生read.jdbc从Oracle数据库中将一个大表读入spark中。我已经用中小尺寸的桌子(最多11M行)测试了它，它工作得很好。然而，当试图引入一个更大的表(大约70m行)时，我总是会出错。示例代码以显示我是如何在以下内容中阅读这些内容的： val df = sparkSession.read.jdbc( url = jdbcUrl, table = "( SELECT * FROM keyspace.table WHERE EXTRACT(year FROM date_column) BETWEEN 2012 AND 2016

浏览 1提问于2017-08-17得票数 2

1回答

如何使用Java和Spark在Dataset中打印行内容？

、、

我想做一个简单的Spark代码，它读取一个名为u.data的文件，该文件包含电影分级，创建一个Dataset of Rows，然后打印数据集的第一行。我的前提是将文件读取到JavaRDD，并根据ratingsObject映射RDD (对象有两个参数，movieID和rating)。所以我只想打印这个数据集中的第一行。我使用Java语言和Spark。 public static void main(String[] args){ App obj = new App(); SparkSession spark = SparkSession.builder().appName(&

浏览 0提问于2018-07-31得票数 4

回答已采纳

2回答

PySpark -时间戳行为

、、

我试着理解pyspark.sql.currenttimestamp()和datetime.now()之间的行为差异如果我使用这2种机制来创建时间戳列，在DataBricks中创建一个Spark，那么一切都像预期的那样工作得很好. curDate2 = spark.range(10)\ .withColumn("current_date_lit",F.lit(date.today()))\ .withColumn("current_timestamp_lit",F.lit(F.current_timestamp()))\ .withColumn(&#

浏览 9提问于2022-02-12得票数 2

回答已采纳

3回答

如果火花中的数据不可变，为什么我们能够使用withColumn()之类的操作来修改它呢？

、

这可能是源于我无知的一个愚蠢的问题。我已经在PySpark上工作了几个星期了，一开始我没有多少编程经验。我的理解是，在Spark中，RDDs、Dataframes和数据集都是不可变的--我同样理解，这意味着您不能更改数据。如果是这样，为什么我们能够使用withColumn()编辑Dataframe的现有列？

浏览 0提问于2018-11-19得票数 14

回答已采纳

1回答

仅为转换使用Spark管道

、、

我正在致力于一个项目，其中可配置的管道和谱系跟踪的变化，火花DataFrames都是必不可少的。这个管道的端点通常只是修改了DataFrames (把它看作是一个ETL任务)。对我来说最有意义的是利用已经存在的Spark管道API来跟踪这些更改。特别是修改(根据其他内容添加列，等等)实现为自定义Spark变压器。然而，我们现在正在进行内部辩论，讨论这是否是执行这条管道的最惯用的方式。另一种选择是将这些转换实现为一系列UDF，并基于DataFrame的模式历史(或Spark的内部DF沿袭跟踪)构建我们自己的谱系跟踪。这方面的论点是，Spark的ML管道并不仅仅是ETL作业，而且应该始终以生成一

浏览 2提问于2017-12-14得票数 3

4回答

为什么AnalysisException失败了: AS子句中提供的别名数量与列数不匹配.？

、

这是我的数据 +------------------------------------------ |value +------------------------------------------ |[0.0, 1.0, 0.0, 7.0000000000000036, 0.0] |[2.0000000000000036, 0.0, 2.9999999999999996, 4.0000000000000036, 5.000000000000002] |[4.000000000000006, 0.0, 0.0, 6.000000000000006, 7.000000000000004

浏览 7提问于2018-01-03得票数 9

回答已采纳

1回答

手动迭代Spark SQL数据框并创建列值是否效率低下？

、、、

为了运行一些ML算法，我需要创建额外的数据列。这些列中的每一列都涉及一些相当密集的计算，包括保持移动平均值，并在您遍历每行时记录信息(并同时更新它)。我已经用一个简单的Python脚本做了一个模拟，并且它可以工作，我现在正打算将它转换成一个可以在更大的数据集上运行的Scala Spark脚本。问题是，对于使用Spark SQL的这些应用程序似乎是高效的，最好使用内置的语法和操作(类似SQL)。在SQL表达式中编码逻辑似乎是一个非常耗费心思的过程，所以我想知道，如果我只是通过迭代每一行、跟踪变量并在末尾插入列值来手动创建新的列值，会有什么缺点。

浏览 2提问于2016-06-07得票数 0

1回答

将不等大小的数据集连接到spark中

、、

我有下列数据集： Dataset 1: Dataset 2: Dataset 3: id field1 l_id r_id id field2 以下是它们的尺寸: Dataset1: 20G Dataset2: 5T Dataset3: 20G 目标：我想将id字段上的所有这些数据集( id来自Dataset1，r_id与id来自Dataset 3)与最后的数据集连接起来，如下所示： l_id r_id field1 field2

浏览 2提问于2015-08-27得票数 1

1回答

在插入时设置正确的外键

早上好，我正在做大量的工作来拖动一个数据库( Server 2005，在2000年兼容模式下)。目前，所有表的主键都是nvarchar(32)，并且是使用uniqId()设置的(奇怪的是，这会通过一个特殊的散列函数运行，不知道为什么)。因此，在几个阶段，我要做一些根本性的改变：在每个表中引入ID_int列，自动递增和主键添加一些额外的索引，删除未使用的索引，删除未使用的列到目前为止，这个阶段运行良好，测试db看起来要快一些，每个表的总索引大小都要小得多。我的问题是下一个阶段:外键。我需要能够在其他表中的insert上设置这些INT外键。有几个应用程序指向这个DB，其中只有一个我有

浏览 2提问于2011-12-09得票数 1

1回答

根据依赖于Dataframe的某些字段的值的参数sql查询，在Spark dataframe中添加列

、、、、

我有几个星火数据(我们可以称之为表a，表b等)。我想要在表a中添加一个列，这是根据查询结果添加到另一个表中的，但是这个表每次都会根据表a的一个字段的值进行更改。所以这个查询应该是参数化的。下面我举一个例子来说明这个问题：每个表都有列OID和具有当前表名称的列TableName，以及其他列。 This is the fixed query to be performed on Tab A to add new column: Select $ColumnName from $TableName where OID=$oids Tab A | oids|T

浏览 3提问于2016-11-20得票数 1

1回答

星火scala选项卡文件读取并替换为空

、、

我有一组选项卡文件，我必须读取并保存在数据库中(Cassandra)。我可以加载所有在所有列中都有数据的表。但是一些表在某些列中有空值，而这些列没有被插入。我试过下面的方法， sqlContext.read.format("com.databricks.spark.csv").option("header", "true").option("delimiter", "/t").option("nullValue"," ").load(path) 而且还 sqlContext.rea

浏览 2提问于2016-12-29得票数 0

回答已采纳

1回答

使用SparkR向Spark dataframes添加包含函数值的列

、、、

我正在使用SparkR来处理一些在其技术堆栈中包含R和spark的项目。我必须使用从验证函数返回的布尔值创建新列。我可以使用spark数据帧和一个表达式轻松地完成这项工作： sdf1$result <- sdf1$value == sdf2$value 问题是当我必须比较两个不同长度的数据帧时。使用函数操作sdf1和sdf2数据帧并将值赋给sdf1的新列的最佳方式是什么？假设我想生成一个长度介于sdf1和sdf2之间的列。

浏览 3提问于2017-05-18得票数 0

1回答

SQL dataframe first and last不返回"real“first和last值

、、、

我尝试在一个大文件上使用Apache Spark SQL dataframe的聚合函数"first“和"last”，其中有一个spark master和2个worker。当我执行"first“和" last”操作时，我希望返回文件中的最后一列；但看起来Spark返回的是worker分区中的"first“或"last”。有没有办法在聚合函数中获得“真正的”第一个和最后一个值？谢谢,

浏览 0提问于2016-01-23得票数 1

1回答

带指数爆炸柱

、

我知道我可以“引爆”一列类型数组，如下所示： import org.apache.spark.sql._ import org.apache.spark.sql.functions.explode val explodedDf = payloadLegsDf.withColumn("legs", explode(payloadLegsDf.col("legs"))) 现在我有多个行；数组中的每个项都有一个行。有什么办法我可以“用指数爆炸”吗？这样就会有一个新列，其中包含原始数组中项的索引？ )我可以想出办法来做这件事。首先，将数组字段设置为原始值和索

浏览 0提问于2018-06-21得票数 11

回答已采纳

1回答

是否可以在Hive中更改Spark中的列名？

、、

我试图重命名一列(日期类型)，但不确定语法是否错误，或者在Spark中不可能这样做： ALTER TABLE user.temp_medicalclaims CHANGE vendor_test_id date_service DATE 引发此错误： org.apache.spark.sql.AnalysisException:不支持ALTER更改列将列'vendor_test_id‘类型为'DateType’改为'date_service‘类型为'DateType'；

浏览 0提问于2019-06-21得票数 3

2回答

如何在星火中使用两列和双向groupBy

、、、

我想根据两个方向上的两列对我的dataframe元素进行分组。这是一个用过的数据格式的示例。 val columns = Seq("src","dst") val data = Seq(("A", "B"), ("B", "C"), ("C", "A"),("A", "B"), ("B", "A"), ("B", "A"),("A", "C"

浏览 2提问于2021-11-09得票数 1

回答已采纳

1回答

pyspark dataframe同时按多列排序

、、

我有包含一些数据的json文件，我将这个json转换为pyspark dataframe(我选择了一些列，而不是所有列)，这是我的代码： import os from pyspark import SparkContext from pyspark.streaming import StreamingContext from pyspark.sql import SparkSession import json from pyspark.sql.functions import col sc = SparkContext.getOrCreate() spark = SparkSession

浏览 125提问于2019-03-12得票数 2

回答已采纳

2回答

用不同的TTL向Cassandra写火花

、、、、

在Java中，我有一个“bucket_timestamp”列的dataframe，它表示该行所属的存储桶的时间。我想把数据写到卡桑德拉数据库。数据必须用TTL写入数据库。TTL应该依赖于桶时间戳--其中每一行的TTL应该被计算为ROW_TTL = CONST_TTL - (CurrentTime - bucket_timestamp)，其中CONST_TTL是我配置的常量TTL。目前，我使用一个常量的TTL给Cassandra写信，并使用以下代码： df.write().format("org.apache.spark.sql.cassandra")

浏览 1提问于2018-07-02得票数 1

回答已采纳

2回答

火花卡桑德拉连接器直接连接不适用于IN查询

、、

我在cassandra中有一个表，其中A(String)和B (int)是分区键，我正在用spark编写sql查询 select ("SELECT * from table where A IN ("221",...) and B IN(32,323...)); 在解释计划中，它似乎是在进行批处理扫描，而不是直接连接分区键。 == Physical Plan == Project [A,B ... other columns] +- BatchScan[A,B ... other columns] Cassandra Scan: dev.table Cassandra滤

浏览 8提问于2020-08-04得票数 1

1回答

Teradata和Spark中的相似哈希算法

、、

我正在对来自Teradata数据库的数据执行增量加载，并将其存储为一个拼花文件。因为Teradata中的表包含数十亿行，所以我希望我的PySpark脚本能够比较哈希值。 Teradata：当前存储的Parquet文件：我的PySpark脚本使用JDBC连接来调用teradata： tdDF = return spark.read \ .format("jdbc") \ .option("driver", "com.teradata.jdbc.TeraDriver") \ .option("url", "jd

浏览 0提问于2019-01-16得票数 5

1回答

如何与CSV文件中的数据集一起使用决策树？

、、、、

我想像下面的代码一样使用Spark的org.apache.spark.mllib.tree.DecisionTree，但是编译失败。 import org.apache.spark.ml.Pipeline import org.apache.spark.ml.classification.DecisionTreeClassifier import org.apache.spark.ml.classification.DecisionTreeClassificationModel import org.apache.spark.ml.feature.{StringIndexer, IndexTo

浏览 4提问于2017-05-22得票数 0

1回答

、、

在AWS Glue中运行python作业时，我会得到以下错误：原因:因超过记忆限度而被纱线杀死的容器。使用5.6GB的5.5GB物理内存。考虑提高spark.yarn.executor.memoryOverhead 在脚本开头运行此命令时： print '--- Before Conf --' print 'spark.yarn.driver.memory', sc._conf.get('spark.yarn.driver.memory') print 'spark.yarn.driver.cores', sc._conf.ge

浏览 1提问于2018-08-23得票数 6

2回答

如何将分区添加到现有的Iceberg表

、、、

如何将分区添加到现有的未分区的Iceberg表中？表已经装载了数据。创建了以下表： import org.apache.iceberg.hive.HiveCatalog import org.apache.iceberg.catalog._ import org.apache.iceberg.spark.SparkSchemaUtil import org.apache.iceberg.PartitionSpec import org.apache.spark.sql.SaveMode._ val df1 = spark .range(1000) .toDF .withColu

浏览 6提问于2020-03-11得票数 3

2回答

将字符串转换为TimestampType

、、、

我有一个数据，我想插入到Postgresql中的火花。在spark中，DateTimestamp列是字符串format.In postgreSQL，它是没有时区的TimeStamp。插入到日期时间列上的数据库时，会引发错误。我确实试图更改数据类型，但插入仍然出错。我无法理解为什么强制转换不work.If --我将相同的插入字符串粘贴到PgAdmin中并运行，insert语句运行良好。 import java.text.SimpleDateFormat; import java.util.Calendar object EtlHelper { // Return the current ti

浏览 0提问于2018-05-02得票数 0

回答已采纳

5回答

如何处理分类特征与火花-毫升？

、、、

如何使用spark-ml而不是spark-mllib处理分类数据？虽然文档不是很清楚，但似乎分类器(例如RandomForestClassifier、LogisticRegression )有一个featuresCol参数，它指定了DataFrame中的特性列的名称，还有一个labelCol参数，它指定了DataFrame中标记类的列的名称。显然，我希望在我的预测中使用多个特性，所以我尝试使用VectorAssembler将所有特性放在featuresCol下的一个向量中。但是，VectorAssembler只接受数字类型、布尔类型和向量类型(根据星火网站)，所以我不能在特性向量中放置字

浏览 10提问于2015-08-28得票数 49

1回答

如何将一列中的字符串值替换为来自同一数据帧中其他列的实际列值？

、、、

我在一列中有一些字符串值，我希望将该列中的子字符串替换为其他列中的值，并将所有加号替换为空格(如下所示)。我有这些动态传递的List[String]映射，其中mapFrom和mapTo应该在索引中关联。描述值：mapFrom: ["Child Name", "Child Age", "Child State"] 列名：mapTo: ["name", "age", "state"] 输入示例： name, age, state, description tiffany, 10, virginia,

浏览 0提问于2019-05-16得票数 1

回答已采纳

1回答

无法将spark数据框列与df.withColumn()合并

、、、

我正在尝试合并两个不同数据类型的列。在下面的代码片段中，为了简单起见，我从相同的数据帧中选取了列。 from pyspark.sql import SQLContext, Row from pyspark.sql.types import * from datetime import datetime a=sc.parallelize([('ship1',datetime(2015,1,1),2,3.,4.),('ship1',datetime(2015,1,2),4,8.,9.),('ship1',datetime(2015,1,3),5,

浏览 6提问于2015-10-28得票数 4

1回答

如何在中通过C#代码更改标题文本？

、

如何通过Windows-Mobile DataGrid中的C#代码更改标题文本和列大小？

浏览 1提问于2011-04-24得票数 0

2回答

如何编写基于FileFormat的spark自定义数据源

、

我看到spark avro数据源是基于FileFormat接口实现的。有没有关于如何编写基于FileFormat的spark自定义数据源的文档？到目前为止，我找不到任何东西(除了spark avro的源代码)。谢谢!

浏览 0提问于2017-08-09得票数 7

2回答

无法导入DSX环境中的spark

、、、、

我正在尝试从KMeans导入spark.mllib和Vectors类。该平台是IBM (DSX)，带有python3.5和。我试过： import org.apache.spark.mllib.linalg.Vectors import apache.spark.mllib.linalg.Vectors import spark.mllib.linalg.Vectors 我已经找到了几个例子/教程，其中第一个import为作者工作。我已经确认火花库本身并没有加载到环境中。通常情况下，我会下载软件包，然后下载import。但是对于VMs来说，我不知道如何实现这一点。我也尝试过没有运气的pip

浏览 0提问于2018-04-01得票数 0

回答已采纳

1回答

按键显示不同值的星火/蜂巢

、、、、

在大数据处理中，通常希望在不改变现有查询结构(分组、子查询等)的情况下“勾勒”组摘要。在Spark (和HiveQL)中，collect_set就是这样做的一个例子。它构建每个组列的唯一值的数组。我正在寻找一个联非新议程，它为B列的每个唯一值从A列构建一个唯一值的映射。例如，给定 date user_id category revenue 1/1 1 a 1 1/1 2 b 0 1/1 3 a 0 1/2 2 b 10 1/2 3 a

浏览 12提问于2016-12-30得票数 0

回答已采纳