使用Scala将Spark中的所有新行转换为新列

、、、、

我使用的是火花和Scala。Spark版本的1.5和我正试图将具有名称值组合的输入数据name转换为一个新的数据name，其中所有的名称都被转换为列，并将值转换为行。Country UK 4 State MH 5 State NJ

浏览 10提问于2016-03-02得票数 5

2回答

、、、

我有一个数据帧，它有固定的列，如m1_amt to m4_amt，包含以下格式的数据： +------+----------+----------+----------+-----------++------+----------+----------+----------+-----------+ 我尝试将每个新行转换为一个新列| 7

浏览 22提问于2020-01-01得票数 1

回答已采纳

2回答

如何在不从DataFrame转换和访问数据集的情况下向Dataset添加列？

、

我知道使用.withColumn()向星火.withColumn()添加新列的方法，以及返回DataFrame的UDF。我还知道，我们可以将结果DataFrame转换为DataSet。是否有一种“面向对象的方式”来访问列(而不是将列名作为字符串传递)，就像我们以前使用RDD那样，用于追加一个新列。如何在地图、过滤器等正常操作中访问新

浏览 1提问于2016-11-15得票数 11

回答已采纳

1回答

将StringType列添加到现有的DataFrame中，然后应用默认值

、、、

Scala2.10在这里使用Spark1.6.2。我有一个与类似的(但不是相同的)问题，然而，被接受的答案不是，它假定了关于火花的某种“预先知识”；因此我无法复制它或理解它。(更重要的是，)，这个问题也仅限于向现有的dataframe中添加一个新列，而我需要添加一个列以及数据中所有现有行的值。因此，我希望向现有的DataFrame添加一列

浏览 4提问于2016-10-10得票数 7

回答已采纳

1回答

DataFrame中的列标题取消透视(Spark* Scala)*

、、、

Header 2 | null | null | null实际上，我试图将每一列中的标头名称转置为它们在单个列中的值，该列将接收新的标头名称。行中的每个值也将是新列</e

浏览 17提问于2021-06-08得票数 0

回答已采纳

1回答

Spark在添加随机双列时，在所有行中都有重复值。

、、

我试图在dataframe中添加一个新列。新列包含随机双值。该问题是DataFrame中所有行的新列中的值重复。我使用scala.util.Random类来生成。我试图简单地向dataframe添加一个新列，就像在类似的帖子中建议的那样。我试图将DataFr

浏览 2提问于2019-04-26得票数 2

回答已采纳

2回答

将拼花文件从S3加载到DynamoDB

、、、、

我一直在寻找从S3到DynamoDB加载Parquet文件的选项(基本上是空的和还原的)。拼花文件本身是通过运行在EMR集群上的火花作业创建的。这里有几件事要记住，文件将包含数百万行(比如1000万行)，因此需要一个有效的解决方案。我相信boto (即使是批处理写入)可能没有那么有效？

浏览 0提问于2019-04-23得票数 1

2回答

在星火中向DataFrame添加一个新列

、、、、

我希望向DataFrame中的Spark(Scala)中添加一个带有行id的新列。这就是我所采取的方法。我正在创建一个带有索引id的新行和一个包含了另一个StructType的新StructField。$$anonfun$6.apply(SQLContext.scala:492) at org.apac

浏览 4提问于2016-05-02得票数 0

回答已采纳

2回答

将RDD[String]转换为RDD[myclass]

、、

我正在尝试将RDDString转换为RDDPicture，但做不到。如果我能够设法将RDD转换为RDDPicture，我将使用def hasValidCountry来检查图片元的纬度和经度值是否有效。在此之后，我将尝试检查用户标记在图片类中的def hasTags中是否有效。我遇到的问题是：已发现的scala.collection.immutable.Strin

浏览 4提问于2020-11-14得票数 0

回答已采纳

1回答

创建具有嵌套结构的DataFrame并从输入表填充数据

、、

我正在使用Scala中的Spark，希望将现有的数据集(dataframe)转换为包含嵌套结构的新表。columnB columnC columnD columnE 示例输出: columnA columnB columnC columnF:{columnD，columnE} (创建一个同时包含D和E作为嵌套结构的新列) 转换columnA-C很简单，因为我可以使用</em

浏览 25提问于2021-08-12得票数 0

4回答

如何利用Java在星火DataFrame中应用地图功能？

、、

我试图使用Java在星火中的DataFrame上使用map函数。我在跟踪文件上写着 map(scala.Function1 f，scala.reflect.ClassTag凭据$4)通过向该DataFrame的所有行应用一个函数来返回一个新的DataFrame。在地图中使用Function1时，我需要实现所有的函数。我已经看到了一些与此相关的，但是所提供

浏览 1提问于2017-10-25得票数 3

1回答

PySpark -当值为"t“和"f”时，如何使用模式读取BooleanType

、、、

我使用StructType定义了一个模式，用于读取Redsfhit中的数据帧。该表具有350+列，其中许多列被配置为布尔值。at scala.collection.immutable.StringOps.toBo

浏览 1提问于2017-11-22得票数 3

1回答

如何编写excel代码来用程序导出的数据更新excel工作表？

、

在这里，我尝试编写一个excel代码，它可以用来自数据转储的更新信息自动更新行(原始数据来自以前的转储，只想让excel表与数据转储保持最新，并使用户输入的数据与数据转储数据保持一致)。代码应该比较每行前4列中的值，以获得同一列上整个工作表中重复的数据；如果它发现一个重复行具有相同的数据，它将

浏览 2提问于2016-02-22得票数 0

2回答

星火Scala* FoldLeft在集群中运行时生成StackOverflow*

、、、

我使用下面的代码来重新构造一个数据格式，使用它的行来进行整形。dataframe包含产品更改其ID的日期，但是为了将其与包含事务的巨大的其他数据date连接起来，我需要一个新的列来定义有效的ID范围。例如，如果产品A更改为产品B，生效日期为01/01，然后更改为产品C生效日期为03/01，则需要同一行中的开始日期和结束日期，这

浏览 0提问于2018-09-04得票数 2

回答已采纳

1回答

Zeppelin UI OOM

、

我在齐柏林飞艇中有一项繁重的任务，当我多次运行该段落时，齐柏林飞艇的/jobs状态页面将返回HTTP500错误和OOM。我在yarn上运行spark的客户端模式。

浏览 1提问于2017-03-14得票数 2

1回答

将sql.ColumnName强制转换为Double

、、、、

我需要调用scala.math.pow来计算一个数字，但是在将scala sql中创建的列转换为双精度值时遇到了问题。我有一个spark sql数据框，它有一个列，我试图使用此UDL将其转换为双精度。val toDouble = udf[Double

浏览 3提问于2016-12-02得票数 0

1回答

Sparkr将DF写入csv/txt文件

、、

嗨，我在做纱线模式的sparkR。我看到有write.df，但是它会写拼花文件。

浏览 5提问于2016-01-21得票数 2

回答已采纳

2回答

Apache从带有Windows的DataFrame编写

、、

我在一个基于Unix的集群中运行ApacheSpark3.1.2，为基于Windows的摄取系统准备CSV文件。当Windows系统摄取由集群的Spark导出创建的CSV文件时，它无法解析CSV，因为新的行是LF \n Unix样式的新行，而Windows系统正在等待CRLF \r\n样式行的结尾。是否有一种方法可以将Apach

浏览 3提问于2022-03-07得票数 0

回答已采纳

1回答

我正在尝试编写一些代码，使我能够在数据帧的一组行上计算一些操作。在PySpark中，这可以通过定义类型为GROUPED_MAP的Pandas UDF来实现。然而，在Scala中，我只找到了一种创建自定义聚合器(UDAF)或传统UDF的方法。我的临时解决方案是生成一个关键字列表，该列表将对我的组进行编码，这将允许我过滤数据帧并对数据帧的每个子集执行操作。然而，这种方法并不是最优的，而且速度非常慢。执

浏览 2提问于2020-04-08得票数 2

1回答

Spark Scala -通过有条件地检查其他列的<N>数，将新列添加到数据帧/数据中

、、、

下面是将遗留代码转换为spark scala的场景。任何指针都将受到高度赞赏。场景:需要在有条件地检查20 - 22个其他列值的基础上，使用"withColumn“向dataframe/dataset添加一个新列，然后派生这个新列值。关于如何在spark Scala中实现这一点有什么建议吗？非常感谢。我已经尝

浏览 19提问于2021-02-06得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

摧毁星火DataFrame