使用Spark Dataframe (Scala)中的另一列数组创建数组列

在Spark Dataframe中，可以使用Scala语言来创建一个数组列，并且使用另一列的值来填充这个数组。

要实现这个功能，可以按照以下步骤进行：

导入所需的Spark相关库：

import org.apache.spark.sql.functions._
import org.apache.spark.sql.types._

定义一个用于创建数组列的自定义函数：

val createArray = udf((col: Seq[String]) => col.toArray)

使用withColumn方法来创建一个新的数组列，并使用另一列的值填充该数组。假设我们有一个名为inputDF的Dataframe，其中包含了名为sourceCol的列，可以按照以下方式来实现：

val outputDF = inputDF.withColumn("arrayCol", createArray(col("sourceCol")))

这样，outputDF将会是一个包含了新创建的数组列arrayCol的Dataframe。

以下是对这个问题的完整回答，包括了概念、分类、优势、应用场景、腾讯云相关产品和产品链接地址：

问题：使用Spark Dataframe (Scala)中的另一列数组创建数组列

回答：在Spark Dataframe中，可以使用Scala语言来创建一个数组列，并且使用另一列的值来填充这个数组。

具体实现步骤如下：

导入所需的Spark相关库：

import org.apache.spark.sql.functions._
import org.apache.spark.sql.types._

定义一个用于创建数组列的自定义函数：

val createArray = udf((col: Seq[String]) => col.toArray)

使用withColumn方法来创建一个新的数组列，并使用另一列的值填充该数组。假设我们有一个名为inputDF的Dataframe，其中包含了名为sourceCol的列，可以按照以下方式来实现：

val outputDF = inputDF.withColumn("arrayCol", createArray(col("sourceCol")))

这样，outputDF将会是一个包含了新创建的数组列arrayCol的Dataframe。

Spark Dataframe是一种分布式的数据处理工具，具有以下优势：

高性能处理：Spark Dataframe基于Spark引擎，能够以高效且并行化的方式处理大规模数据集，提供了快速的数据处理和分析能力。
灵活的数据操作：Spark Dataframe提供了丰富的API和函数，使得可以对数据进行灵活的转换、过滤、聚合等操作，满足各种数据处理需求。
容错性：Spark Dataframe具有良好的容错性，能够自动处理节点故障，并保证数据处理的准确性和一致性。

适用场景：使用Spark Dataframe创建数组列适用于以下场景：

数据预处理：可以将一列的值作为数组的元素，进而进行一些数据清洗、处理、转换等操作。
特征工程：在机器学习和数据挖掘任务中，可以使用Spark Dataframe创建数组列来表示某些特征的向量，用于模型训练和预测。

腾讯云相关产品：腾讯云提供了一系列云计算产品，其中包括了适用于Spark Dataframe的产品和服务。以下是其中一些相关产品和其介绍链接地址：

TencentDB for TDSQL：腾讯云提供的高可用、自动容灾的关系型数据库服务，支持与Spark Dataframe进行无缝集成。详细介绍请参考：TencentDB for TDSQL
Tencent Cloud Object Storage (COS)：腾讯云提供的海量、安全、低成本的云存储服务，可与Spark Dataframe进行数据交互和存储。详细介绍请参考：腾讯云对象存储 COS

以上是使用Spark Dataframe (Scala)中的另一列数组创建数组列的完善和全面的答案。请注意，本回答只是其中的一种方式，可能还存在其他实现方法。

如何将数据帧中的org.apache.spark.mllib.linalg.Vector保存到cassandra

、、、、

我需要在其中一列中保存包含org.apache.spark.mllib.linalg.Vector的dataframe。在cassandra中从dataframe创建表时，抛出错误。 java.lang.Exception: Cassandra Writer Failed. java.lang.IllegalArgumentException: Unsupported type: org.apache.spark.mllib.linalg.VectorUDT@f71b0bce at com.datastax.spark.connector.types.ColumnType$.u

浏览 28提问于2016-08-09得票数 3

1回答

迭代的列并更新指定的值

、、、

为了迭代从Hive表创建的Spark列并更新所有所需的列值，我尝试了以下代码。 import org.apache.spark.sql.{DataFrame} import org.apache.spark.sql.functions._ import org.apache.spark.sql.functions.udf val a: DataFrame = spark.sql(s"select * from default.table_a") val column_names: Array[String] = a.columns val required

浏览 0提问于2018-05-06得票数 0

回答已采纳

2回答

星火SQL抛出错误"java.lang.UnsupportedOperationException:未知字段类型:空“

、、、

当创建一个列值默认值为NULL的表时，我在Spark(1.6) SQL中获得了下面的错误。示例:将表测试创建为select column_a，NULL作为column_b从test_temp创建；同样的东西在Hive中工作，并创建数据类型为"void“的列。我使用空字符串而不是NULL来避免异常和新列获取字符串数据类型。是否有更好的方法使用spark在hive表中插入空值？ 2017-12-26 07:27:59 ERROR StandardImsLogger$:177 - org.apache.hadoop.hive.ql.metadata.HiveException: jav

浏览 3提问于2017-12-27得票数 0

回答已采纳

1回答

将StringType列添加到现有的DataFrame中，然后应用默认值

、、、

Scala2.10在这里使用Spark1.6.2。我有一个与类似的(但不是相同的)问题，然而，被接受的答案不是，它假定了关于火花的某种“预先知识”；因此我无法复制它或理解它。(更重要的是，)，这个问题也仅限于向现有的dataframe中添加一个新列，而我需要添加一个列以及数据中所有现有行的值。因此，我希望向现有的DataFrame添加一列，然后将该新列的初始(“默认值”)值应用到所有行。 val json : String = """{ "x": true, "y": "not true" }""

浏览 4提问于2016-10-10得票数 7

回答已采纳

1回答

如何创建countVectorizer模型的一个列中包含值数组的火花数据

、、

我正在尝试执行星火的countVectorizer模型。作为这个需求的一部分，我正在读取一个csv文件并从其中创建一个Dataframe (inp_DF)。它有3列，如下所示 +--------------+--------+-------+ | State|Zip Code|Country| +--------------+--------+-------+ | kentucky| 40205| us| | indiana| 47305| us| |greater london| sw15| gb| | ca

浏览 1提问于2017-09-05得票数 0

回答已采纳

1回答

向dataframe星火/scala添加新列时遇到的问题

、、、、

我是新来的火花/斯卡拉。我正在尝试读取一些数据从一个蜂窝表到一个火花数据，然后添加一个列的基础上的一些条件。这是我的代码： val DF = hiveContext.sql("select * from (select * from test_table where partition_date='2017-11-22') a JOIN (select max(id) as bid from test_table where partition_date='2017-11-22' group by at_id) b ON a.id=b.bid")

浏览 1提问于2017-11-27得票数 0

回答已采纳

1回答

创建空的dataframe Java Spark

、、

关于如何使用Spark Scala/Python创建空的dataframe/Dataset，有很多示例。但是我想知道如何在Java Spark中创建一个空的dataframe/Dataset。我必须创建一个空的dataframe，其中只有一列，标题为Column_1，类型为String。

浏览 27提问于2020-07-14得票数 0

回答已采纳

1回答

如何将WrappedArray转换为Spark Scala中的列表？

、、、、

我使用DataFrame来处理spark中的数据。我在这个数据帧中有一个数组列。在我要做的所有转换的最后，我得到了一个包含一个数组列和一行的dataframe。为了应用groupby、map和reduce，我想把这个数组作为一个列表，但我做不到。 .drop("ScoresArray") .filter($"min_score" < 0.2) .select("WordsArray")

浏览 33提问于2021-04-11得票数 0

1回答

Spark DataFrame嵌套结构是否仅供选择？

、

我有一个包含一些数据的json文件，我可以从中创建DataFrame，我感兴趣的特定部分的模式如下所示： val json: DataFrame = sqlc.load("entities_with_address2.json", "json") root |-- attributes: struct (nullable = true) | |-- Address2: array (nullable = true) | | |-- value: struct (nullable = true) | | | |-- Zi

浏览 1提问于2015-05-28得票数 23

回答已采纳

1回答

Apache注册一个UDF返回的数据

、、

我有一个返回数据的UDF。就像下面的那个 scala> predict_churn(Vectors.dense(2.0,1.0,0.0,3.0,4.0,4.0,0.0,4.0,5.0,2.0)) res3: org.apache.spark.sql.DataFrame = [noprob: string, yesprob: string, pred: string] scala> predict_churn(Vectors.dense(2.0,1.0,0.0,3.0,4.0,4.0,0.0,4.0,5.0,2.0)).show +------------------+------

浏览 3提问于2016-12-20得票数 3

回答已采纳

1回答

提交jars以激发集群时出现的问题

、、、

我试图使用IntelliJ在scala中创建一个基本作业。使用下面的代码，我必须构建scala并使用sbt assembly创建一个jar。然后将这些罐子连同火花-卡桑德拉连接器一起提交给星火星系团。因此，我的问题是如何在Intellij中不创建jar的情况下测试scala代码。而且，每次我更改我的build.sbt文件中的某些内容。它启动了一个下载依赖项的后台任务，即使我已经将其放在build.sbt文件中。那么，我要怎么做一次呢？代码: import org.apache.spark.SparkContext import org.apache.spark.SparkConf im

浏览 4提问于2016-04-15得票数 2

2回答

SparkR：“无法解析列名...”向Spark数据框添加新列时

我正在尝试将一些计算列添加到SparkR数据框中，如下所示： Orders <- withColumn(Orders, "Ready.minus.In.mins", (unix_timestamp(Orders$ReadyTime) - unix_timestamp(Orders$InTime)) / 60) Orders <- withColumn(Orders, "Out.minus.In.mins", (unix_timestamp(Orders$OutTime) - unix_timestamp(Orders$InTime)) / 6

浏览 2提问于2015-12-29得票数 0

2回答

火花放电中RDD到DF的不完全转换

、、

使用PySpark 1.6.3，我试图将RDD转换为Dataframe。这是在齐柏林飞艇笔记本上运行的测试代码。感兴趣的是rdd_ret。 >>> from pyspark.sql import Row >>> rdd_ret.count() 9301 >>> rddofrows = rdd_ret.map(lambda x: Row(**x)) >>> things = rddofrows.take(10000) >>> len(things) 9301 >>> [type(x) fo

浏览 0提问于2018-06-21得票数 2

1回答

scala:用成千上万的列逐行更新巨大的数据格式

、、、

这是另一个未解决的的后续，该任务非常简单，即根据前几列的信息更新大量列(大约10,000)。行数约为100米，数据大小在兆字节范围内，排除了collect方法。在几百列的情况下，使用UDF的逐列方法失败(1500列不能这样做)。此外，看来大部分时间都是由星火公司使用大约100%-200%的CPU (与其他使用数十个核心的操作不同)。这让我相信，星火dataframe的低缓存命中率，可能是由于内存崩溃。然后，我试图解决使用逐行方法的问题，因为Spark在分区中保持行的完整性。最直接的解决方法可能是使用case class，并拥有在行中高效处理的方法，并将更新后的行作为元组返回，该元组可以利用需

浏览 5提问于2022-07-25得票数 0

回答已采纳

1回答

如何在.Net Spark中将数组列作为参数传递到VectorUdf中？

、、、、

我正在尝试在C# Spark中实现向量自定义函数。我已经通过Spark .Net创建了.Net Spark环境。在我的IntegerType专栏中，Vector Udf (Apache箭头和Microsoft.Data.Analysis都是)很好用。现在，尝试将Integer数组类型的列发送到Vector Udf，但找不到实现此目的的方法。用法 using System; using System.Linq; using Microsoft.Data.Analysis; using Microsoft.Spark.Sql; using func = Microsoft.Spark.Sql

浏览 17提问于2021-03-25得票数 6

3回答

字符串列包含通过spark scala进行精确匹配的单词

、、

我有两个数据帧，第一个数据帧包含实际数据(从CSV文件读取)，第二个数据帧包含一个具有多个关键字的列。即下面的Dataframe-1外观相似(我们必须搜索的地方)：数据帧-2：我想要的输出：我在这里使用spark scala。我想要一个与dataframe-1中的dataframe-2完全匹配的单词。我使用了like、rlike、contains等函数，但它没有给出我想要的输出。有人知道如何在spark scala SQL中或使用dataframe的spark scala函数来开发此逻辑吗？请帮我弄一下这个。

浏览 1提问于2021-02-12得票数 0

2回答

如何将函数应用于Spark DataFrame的列？

、、、

让我们假设我们有一个Spark DataFrame df.getClass Class[_ <: org.apache.spark.sql.DataFrame] = class org.apache.spark.sql.DataFrame 使用下面的模式 df.printSchema root |-- rawFV: string (nullable = true) |-- tk: array (nullable = true) | |-- element: string (containsNull = true) 假设Scala列的每一行都是一个字符串数组，那么如何编写一个tk函数

浏览 2提问于2016-01-05得票数 7

回答已采纳

1回答

用unix_timestamp方法创建火花时间戳

、

我有个csv文件。它有许多列，其中两列是月和年。月份为1.12，而2013年.(例如)。我需要创建一个mm/yyyy格式的时间戳，作为一个新列，比如“时间戳”。我试过下面的片段，但失败了。 scala> val df = spark.read.format("csv").option("header", "true").load("/user/bala/*.csv") df: org.apache.spark.sql.DataFrame = [_c0: string, Month: string ... 28

浏览 2提问于2016-09-29得票数 0

回答已采纳

1回答

scala.collection.mutable.WrappedArray$ofRef不能强制转换为整数

、、

我是Spark和Scala的新手。我试图调用一个函数作为Spark UDF，但我遇到了这个错误，我似乎无法解决。我知道在Scala中，Array和Seq是不同的。WrappedArray是Seq的一个子类型，并且在WrappedArray和数组之间存在隐式转换，但我不确定为什么在使用自定义函数的情况下不会发生这种转换。任何能帮助我理解和解决这个问题的建议都是非常感谢的。这是一段代码片段 def filterMapKeysWithSet(m: Map[Int, Int], a: Array[Int]): Map[Int, Int] = { val seqToArray = a.toArra

浏览 0提问于2016-10-23得票数 23

回答已采纳

1回答

如何从拼花文件中读取和写入自定义类

、、、、

我试图使用DataFrame/datasets为某个类类型编写一个parquet读/写类类模式： class A { long count; List<B> listOfValues; } class B { String id; long count; } 代码： String path = "some path"; List<A> entries = somerandomAentries(); JavaRDD<A> rdd = sc.parallelize(entries, 1); DataFrame d

浏览 3提问于2016-10-14得票数 1

回答已采纳

1回答

在本地使用spark/scala查询数据时，如何更改列中值的输出？

、、、、

我使用spark/scala本地将json文件转换为dataframe。我当前的dataframe有一个列‘男性’和‘女性’值，如下所示。我想将dataframe中的‘男性’更改为'M'，以及使用Spark-sql<code>E 215</code>将‘where’更改为'F'的位置。到目前为止，我已经： val results = spark.sql("SELECT name, case WHEN gender = 'Male' then 'M' WHEN gender = 'Fema

浏览 5提问于2021-07-19得票数 1

2回答

在熊猫(python)中，能不能将星星之火(scala)转换成数据(Python)

、、、

Dataframe是使用scala创建的。 val someDF = spark.createDataFrame( spark.sparkContext.parallelize(someData), StructType(someSchema) ) 我想把这个转换成Pandas Dataframe PySpark提供了.toPandas()来将火花数据转换成熊猫，但是scala(我可以找到)并没有对应的数据。请在这方面帮助我。

浏览 1提问于2020-04-05得票数 0

回答已采纳

1回答

使用scala追加转换后的列以激发数据格式

、、、

我正在尝试访问一个hive表，并从表/ dataframe中提取和转换某些列，然后将这些新列放到一个新的dataframe中。我正试着这样做- val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) val hiveDF = sqlContext.sql("select * from table_x") val system_generated_id = hiveDF("unique_key") val application_assigned_event_id = hiveDF("

浏览 1提问于2016-07-03得票数 1

回答已采纳

3回答

如何将元素追加到Spark Dataframe的数组列？

、

假设我有以下DataFrame： scala> val df1 = Seq("a", "b").toDF("id").withColumn("nums", array(lit(1))) df1: org.apache.spark.sql.DataFrame = [id: string, nums: array<int>] scala> df1.show() +---+----+ | id|nums| +---+----+ | a| [1]| | b| [1]| +---+----+ 我想将元素添加到n

浏览 1提问于2018-04-06得票数 15

回答已采纳

2回答

如何在不从DataFrame转换和访问数据集的情况下向Dataset添加列？

、

我知道使用.withColumn()向星火.withColumn()添加新列的方法，以及返回DataFrame的UDF。我还知道，我们可以将结果DataFrame转换为DataSet。我的问题是：如果我们仍然遵循传统的DF方法(即将列名作为UDF输入的字符串传递)，DataSet的类型安全性是如何发挥作用的？是否有一种“面向对象的方式”来访问列(而不是将列名作为字符串传递)，就像我们以前使用RDD那样，用于追加一个新列。如何在地图、过滤器等正常操作中访问新列？例如： scala> case class Temp(a : Int, b : String

浏览 1提问于2016-11-15得票数 11

回答已采纳

2回答

获取Spark中DataFrame列的值

、

我正在尝试检索DataFrame列的值并将其存储在一个变量中。我试过这个： val name=df.select("name") val name1=name.collect() 但是上面的所有操作都没有返回"name“列的值。 Spark版本:2.2.0 Scala版本:2.11.11

浏览 0提问于2017-09-22得票数 16

回答已采纳

1回答

向现有DataFrame添加mapType列

、、

关于Spark中的Scala中的DataFrames，我有一个简单而快速的问题。我有一个现有的Spark DataFrame (在Scala2.10.5和Spark 1.6.3上运行)，我想用ArrayType或MapType添加一个新列，但不知道如何实现。但不知道该怎么处理。我不想用“单一”值创建多个列，而是将它们存储在一个列中。这将缩短我的代码，并使其更容易更改。 import org.apache.spark.sql.types.MapType ... // DataFrame initial creation val df = ... // adding new columns

浏览 9提问于2019-11-20得票数 0

1回答

N列m行的动态数据帧

、

从json(动态模式)读取数据，并将其加载到dataframe。示例数据帧： scala> import spark.implicits._ import spark.implicits._ scala> val DF = Seq( (1, "ABC"), (2, "DEF"), (3, "GHIJ") ).toDF("id", "word") someDF: org.apache.spark.sql.DataFrame = [number: int, wor

浏览 6提问于2020-06-04得票数 0

回答已采纳

1回答

数据过滤给NullPointerException

、、、、

在Spark1.6.0中，我有一个包含职务描述的列的数据框架，如： Description bartender bartender employee taxi-driver ... 我使用以下方法从该列检索唯一值列表： val jobs = people.select("Description").distinct().rdd.map(r => r(0).asInstanceOf[String]).repartition(4) 然后，对于每个职务描述，我尝试检索具有该职务的人员并做一些事情，但我得到了一个NullPointerException： jobs.foreach

浏览 2提问于2016-02-21得票数 5

回答已采纳

2回答

将数据保存到蜂巢中的ArrayIndexOutOfBoundsException

、、

在使用下面的API代码将数据存储到一个单元表时，我遇到了问题。 df.write.mode(SaveMode.Append).format("parquet").partitionBy("ord_deal_year", "ord_deal_month", "ord_deal_day").insertInto(tableName) 我的Dataframe大约有48列。其中Hive表有90列。当我试图保存Dataframe时，我会收到以下错误： 12:56:11 Executor task launch worker-0 ERROR

浏览 0提问于2018-03-05得票数 0

回答已采纳

1回答

Spark 1.4.0 org.apache.spark.sql.AnalysisException:无法解决给定输入列的“概率”

、

我目前正在使用Spark 1.4.0，并开始使用ML pipeline framework。我运行了示例程序"ml.JavaSimpleTextClassificationPipeline"，它使用LogisticRegression。但是我想做多类分类，所以我在org.apache.spark.ml.classification包中使用了org.apache.spark.ml.classification。使用'probability'方法对模型进行了适当的训练，但是当使用上面示例中的print语句测试模型时，我得到了以下错误:不存在fit列。本专栏仅提

浏览 4提问于2015-07-17得票数 1

2回答

获取数组列的大小/长度

、、

我是Scala编程的新手，这是我的问题:如何计算每行的字符串数？我的数据帧由ArrayString类型的单个列组成。 friendsDF: org.apache.spark.sql.DataFrame = [friends: array<string>]

浏览 2提问于2017-09-07得票数 45

回答已采纳

1回答

在该行的任何列中选择至少一个空或空的行。

、

从一个dataframe中，我想创建一个新的dataframe，其中任何列中至少有一个值为null或空，在Spark1.5/ scala中。我正在尝试编写一个通用函数来创建这个新的dataframe。在这里，我传递数据文件和列列表，并创建记录。谢谢

浏览 4提问于2017-07-25得票数 4

回答已采纳

2回答

如何在Apache Spark中根据分隔符将单字符串列转换为多列

、、

我有一个包含字符串列的数据框，我想在其中创建多个列。这是我的输入数据，pagename是我的字符串列我想从它创建多个列。字符串的格式是相同的- col1:value1 col2:value2 col3:value3 ... colN:valueN。在输出中，我需要多个列- col1 to colN，值作为每列的行。以下是输出- 我如何在spark中做到这一点？Scala或Python都适合我。下面的代码创建输入数据帧- scala> val df = spark.sql(s"""select 1 as id, "a:100 b:50

浏览 23提问于2021-06-02得票数 0

回答已采纳

1回答

触发不可序列化的udf错误任务(scala)

、

我从事一个scala星火项目。我想检索带有2个数据文件的代码的措辞。我有两个dataFrames：一个有可能与代码，我将检索的措辞。(列利息) 第二列有2列，代码和这段代码的措辞。我这样做： def CodeToInterest(df: sql.DataFrame, codesList: sql.DataFrame) : sql.DataFrame = { val spark = SparkSession.builder().getOrCreate() import spark.implicits._ val transformList = udf((ini

浏览 2提问于2019-10-07得票数 0

回答已采纳

1回答

在Scala Spark和PySpark之间传递sparkSession

、、、

我的要求是从现有的PySpark程序中调用一个"Spark Scala“函数。将PySpark程序中创建的sparkSession传递给Scala函数的最佳方式是什么？我将我的scala jar传递给Pyspark，如下所示。 spark-submit --jars ScalaExample-0.1.jar pyspark_call_scala_example.py iris.data Scalacode def getDf(spark: SparkSession, query:String, df: DataFrame, log: Logger): DataFrame = { i

浏览 59提问于2019-10-01得票数 4

1回答

如何将数据架构的字符串拆分为每个结构

、、

我想将dataframe的架构拆分为一个集合。我正在尝试这个方法，但是模式被打印成一个字符串。我是否可以将其拆分为每个StructType的集合，以便对其进行操作(比如只从输出中提取数组列)？我试图平平一个复杂的多层次的结构+数组数据。 import org.apache.spark.sql.functions.explode import org.apache.spark.sql._ val test = sqlContext.read.json(sc.parallelize(Seq("""{"a":1,"b":[2,3],"

浏览 0提问于2018-03-09得票数 0

回答已采纳

1回答

无法将spark数据框列与df.withColumn()合并

、、、

我正在尝试合并两个不同数据类型的列。在下面的代码片段中，为了简单起见，我从相同的数据帧中选取了列。 from pyspark.sql import SQLContext, Row from pyspark.sql.types import * from datetime import datetime a=sc.parallelize([('ship1',datetime(2015,1,1),2,3.,4.),('ship1',datetime(2015,1,2),4,8.,9.),('ship1',datetime(2015,1,3),5,

浏览 6提问于2015-10-28得票数 4

1回答

Spark:加载或选择ORC格式的配置单元表

、、、、

我正在尝试加载一个用spark sql以ORC格式创建的托管配置单元表。 SparkConf conf = new SparkConf().setAppName(ConnectionTest.class.getName()).setMaster(master); JavaSparkContext context = new JavaSparkContext(conf); SQLContext sqlContext = new HiveContext(context); sqlContext.sql("SELECT * FROM schema.tableName").show

浏览 21提问于2017-04-20得票数 3

1回答

运行火花-使用Gradle从Intellij中移出红移

、

我试图使用星火红移库，并且无法操作由sqlContext.read()命令创建的数据(从redshift读取)。这是我的代码： Class.forName("com.amazon.redshift.jdbc41.Driver") val conf = new SparkConf().setAppName("Spark Application").setMaster("local[2]") val sc = new SparkContext(conf) import org.apache.spark.sql._ val sqlContext

浏览 4提问于2015-11-04得票数 1

回答已采纳

3回答

文本列上的Pyspark DataFrame自定义项

、、、、

我正在尝试对PySpark DataFrame中的一些Unicode列进行一些NLP文本清理。我已经尝试了Spark 1.3，1.5和1.6，但似乎无法让它在我的生命中正常工作。我也尝试过使用Python2.7和Python3.4。我已经创建了一个非常简单的udf，如下所示，它应该只为新列中的每条记录返回一个字符串。其他函数将操作文本，然后在新列中返回更改后的文本。 import pyspark from pyspark.sql import SQLContext from pyspark.sql.types import * from pyspark.sql import SQLConte

浏览 4提问于2016-01-15得票数 21

回答已采纳

2回答

将稀疏特征向量分解为单独的列

、、、、

在我的spark DataFrame中，有一列包含了CountVectoriser转换的输出-它是稀疏向量格式的。我想要做的是将这列再次“分解”成一个密集的向量，然后是它的组成部分行(这样它就可以用于外部模型的评分)。我知道本专栏中有40个特性，因此在下面的示例中，我尝试了： import org.apache.spark.sql.functions.udf import org.apache.spark.mllib.linalg.Vector // convert sparse vector to a dense vector, and then to array<double&g

浏览 12提问于2018-01-30得票数 2

回答已采纳

1回答

使用“发现”参数获取com.sap.spark.vora.VoraConfigurationException

、、

我在SLES 11 SP3上安装了HDP 2.3.4集群和3台机器，并安装了Vora1.2 终于让发现号服务开始工作了。我可以在中验证它。另外，Vora Thriftserver也不会死。这样我就可以通过第34页上的"val =(Sc)“一行。但是，当我试图创建一个表时，我会得到以下内容： com.sap.spark.vora.VoraConfigurationException: Following parameter(s) are invalid: discovery at com.sap.spark.vora.config.ParametersValidator

浏览 3提问于2016-05-13得票数 0

回答已采纳

1回答

在结构序列中使用Spark UDF

、、

给定一个数据帧，其中一列是由以下序列生成的结构序列 val df = spark .range(10) .map((i) => (i % 2, util.Random.nextInt(10), util.Random.nextInt(10))) .toDF("a","b","c") .groupBy("a") .agg(collect_list(struct($"b",$"c")).as("my_list")) df.printSchema df.show(

浏览 0提问于2017-07-13得票数 12

回答已采纳

2回答

将Array[string]类型的两列合并为新的Array[string]列

、、、

我在Spark DataFrame中有两列，每一列中的每个条目都是字符串数组。 val ngramDataFrame = Seq( (Seq("curious", "bought", "20"), Seq("iwa", "was", "asj")) ).toDF("filtered_words", "ngrams_array") 我希望合并每一行中的数组，以便在新列中生成单个数组。我的代码如下： def concat_array(firstarray: Arra

浏览 1提问于2018-03-07得票数 9

回答已采纳

1回答

spark scala将列名映射到值为true的输出arraytype列

、、、

浏览 14提问于2021-09-15得票数 2

1回答

用createDataFrame创建星火矢量列

、、、、

我可以使用向量列和DataFrame方法创建一个星火toDF。 val dataset = Seq((1.0, org.apache.spark.ml.linalg.Vectors.dense(0.0, 10.0, 0.5))).toDF("id", "userFeatures") scala> dataset.printSchema() root |-- id: double (nullable = false) |-- userFeatures: vector (nullable = true) scala> dataset.schem

浏览 0提问于2018-05-13得票数 1

3回答

如何为数据类型为double的列计算spark sqlContext中位数

、、

我已经给出了示例表。我想从"value“列获得每组"source”列的中位数。其中，源列是字符串，DataType值列是双DataType scala> sqlContext.sql("SELECT * from tTab order by source").show +---------------+-----+ | Source|value| +---------------+-----+ |131.183.222.110

浏览 10提问于2015-12-30得票数 7

2回答

Spark-scala聚合列表中的多个列

、、

我有一个数据帧，其中有几个数值列是不固定的(它们在每次执行过程中都会发生变化)。假设我有一个带有数字列名称的Seq对象。我想对这些列中的每一列应用一个聚合函数。我尝试过以下几种方法： println(numeric_cols) // -> Seq[String] = List(avgTkts_P1, avgTkts_P2, avgTkts_P3, avgTkts_P4) var sum_ops = for (c <- numeric_cols) yield org.apache.spark.sql.functions.sum(c).as(c) var result = df.g

浏览 2提问于2018-09-04得票数 0

2回答

如何在spark scala中处理模式匹配中的空值

、

下面是spark shell代码 scala> val colName = "time_period_id" scala> val df = spark.sql("""select time_period_id from prod.demo where time_period_id = 202101102 """) df: org.apache.spark.sql.DataFrame = [time_period_id: int] scala> val result = df.agg(max(

浏览 24提问于2021-03-11得票数 2

回答已采纳