Scala Spark，用char值填充整个列

、、

我正在尝试读取一列，如果该列中有"Y“，我会用"Y”填充新列，否则我会用"N“填充它。df1 = df.withColumn("HasChanged", when(Value === "Y"), lit("Y")).otherwise("N"))) 但只更改有Y的行，而我想要的是更改整个列

浏览 9提问于2021-02-15得票数 0

回答已采纳

1回答

在使用Spark MLlib决策树时，如何处理丢失的数字特征？

、、、

在Spark MLlib中使用决策树时，如何处理缺少的数字特征？我正在考虑用其他值的平均值来替换缺失的特征，但是我不确定这对模型质量有什么影响。Spark MLlib是否提供了对此常见问题的支持？

浏览 1提问于2017-05-19得票数 0

1回答

用空值填充scala列

、、

当我试图用空值填充一个DataFrame来替换其中的其他值时，我得到了错误的Caused by: scala.MatchError: Null (of class scala.reflect.internal.Types我如何使用Scala Spark 2.1来做这件事？

浏览 28提问于2017-03-17得票数 0

回答已采纳

2回答

针对Scala中的某个特定ID向数据文件添加值

、、

我有以下数据：1 Ali swl3 Ahad khi以及(1，2，1)这样的值列表：我想在ID == 3中添加这些值。

浏览 3提问于2020-05-03得票数 0

回答已采纳

2回答

Scala -如何将分隔符作为变量写入csv

、、、、

val df = Seq(("a", "b", "c"), ("a1", "b1", "c1")).toDF("A", "B", "C") df.coalesce(1).write.option("delimiter", delim_char).csv("file:/

浏览 1提问于2018-08-24得票数 1

回答已采纳

1回答

分解Pyspark中的映射列而不丢失空值

、、、

在Pyspark 2.2中有什么优雅的方法可以分解map列而不丢失null值吗？Map，以便能够分解整个数据帧，而不会丢失空值。.apply(literals.scala:163) at org.apache.spark.sql.catalyst.expressions.Literal$.create(literals.scala:16

浏览 0提问于2018-02-07得票数 1

回答已采纳

2回答

ColumnarBatch DataSource失败，并显示下推列

在使用与pruneColumns覆盖中提供的requiredSchema长度相同数量的ColumnVectors填充ColumnarBatch后，我在Spark内部得到了一个ArrayIndexOutOfBoundsException我怀疑Spark正在寻找与readSchema override返回的列模式一样多的ColumnVectors，而不是使用pruneColumns提供的模式。执行"select * from dft“可以很好地工作，因为模式长度是相同的--在我的测试用例中是15列。

浏览 0提问于2018-08-07得票数 1

2回答

当列计数不为0时，“拼图记录格式不正确”

、、、

(HiveFileFormat.scala:149) at org.apache.spark.sql.execution.datasources.FileFormatWriter$$$.org$apache$spark$sql$execution$datasources$F

浏览 93提问于2020-01-10得票数 5

1回答

如何删除星火(SCALA)中的整个数据帧？

有一些函数可以删除Spark(SCALA)中的列和行，但是却找不到任何函数来删除整个数据frame.Is，有一种方法可以删除Spark(SCALA)中的数据帧吗？

浏览 0提问于2016-10-15得票数 3

1回答

获取Apache Spark Dataframe (Scala)中列的最大值

、

我正在尝试获取列中的最大值，并编写了以下代码。

浏览 24提问于2020-03-03得票数 0

回答已采纳

1回答

为什么LogisticRegression在"IllegalArgumentException: IllegalArgumentException“中失败？

、、、

java.lang.IllegalArgumentException:需求失败:列pmi必须是org.apache.spark.ml.linalg.VectorUDT@3bfc3ba7类型，但实际上是DoubleTypeat org.apache.spark.sql.types.StructType$$anonfun$apply$1.apply(StructType.scala:264) at <e

浏览 7提问于2017-06-30得票数 2

2回答

Scala :从csv读取具有空值的列的数据

、、

csv文件，它有3列数据类型:String，Long，Date。(MapPartitionsRDD.scala:52)at org.apache.spark.rdd.RDD.iterator(RDD.scala:313) at org.apache.spark.scheduler.ResultTask.runTask(ResultTas

浏览 1提问于2021-03-25得票数 0

1回答

如何访问scala中火花数据的列索引以进行计算

、

我是Scala编程新手，我对R做过大量的工作，但是在scala工作时，很难在循环中提取特定的列来执行列值的计算。让我用一个例子来解释：上面是引用列的计算，所以在计算之后，我们将得到下面的spark数据如何引用for-循环中的列索引来计算scala中星火数据中的新列值

浏览 1提问于2018-05-09得票数 0

回答已采纳

2回答

星火SQL抛出错误"java.lang.UnsupportedOperationException:未知字段类型:空“

、、、

当创建一个列值默认值为NULL的表时，我在Spark(1.6) SQL中获得了下面的错误。示例:将表测试创建为select column_a，NULL作为column_b从test_temp创建；是否有更好的方法使用spark在hive表中插入空值？<init>(DataFrame.scala<

浏览 3提问于2017-12-27得票数 0

回答已采纳

2回答

为什么$不能处理String类型的值(并且只直接处理字符串文本)？

、、

" val Date = "Date"} 然后，我想按列对

浏览 2提问于2018-01-11得票数 2

回答已采纳

2回答

星星之火/ Scala:向前填充最后的观察结果

、、

使用Spark1.4.0，Scala2.10在网上，我在R中看到了很多类似的Q/A，但在Spark / Scala中却没有。filter部分不工作；

浏览 3提问于2015-11-10得票数 31

回答已采纳

1回答

如何使用sqoop将数据导出到具有自动增量id的Microsoft表？

、、、

我创建了一个hiveql表来镜像sql表有什么争论或者什么方法可以做到吗？

浏览 1提问于2020-04-10得票数 0

4回答

如何使用collect作为key，col作为value，以map的形式收集spark数据帧

我正在寻找一种整洁的方法来找到每一列的最大值，并收集在地图中作为{col name:max value of col}。下面是我在一个玩具示例中所取得的进展。在我的完整数据中有数百列，所以手动转换每一列是不可行的。scala> import spark.implicits._i

浏览 49提问于2020-06-12得票数 0

回答已采纳

2回答

带空的Seq[(Int，Int)]隐式转换为DataFrame

、、、

我有一个简单的测试用例，可以将Seq[(Int,Int)]转换为DataFrame： val conf = new SparkConf().set("spark.sql.codegen.wholeStage", "false").set("spark.sql.cbo.enabled", "true") val spark = SparkSession.builder().config(

浏览 0提问于2018-10-24得票数 1

回答已采纳

2回答

如何在Spark/Scala中查找多个空列

、、

我在Spark/Scala中有一个数据文件，它有100的列。许多oth列都有许多空值。我希望找到有超过90%空值的列，然后将它们从我的数据中删除。我怎样才能在Spark/Scala中做到这一点？

浏览 2提问于2017-08-04得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在使用Spark MLlib决策树时，如何处理丢失的数字特征？

用空值填充scala列

针对Scala中的某个特定ID向数据文件添加值

Scala -如何将分隔符作为变量写入csv

分解Pyspark中的映射列而不丢失空值

ColumnarBatch DataSource失败，并显示下推列

当列计数不为0时，“拼图记录格式不正确”

如何删除星火(SCALA)中的整个数据帧？

获取Apache Spark Dataframe (Scala)中列的最大值

为什么LogisticRegression在"IllegalArgumentException: IllegalArgumentException“中失败？

Scala :从csv读取具有空值的列的数据

如何访问scala中火花数据的列索引以进行计算

星火SQL抛出错误"java.lang.UnsupportedOperationException:未知字段类型:空“

为什么$不能处理String类型的值(并且只直接处理字符串文本)？

星星之火/ Scala:向前填充最后的观察结果

如何使用sqoop将数据导出到具有自动增量id的Microsoft表？

如何使用collect作为key，col作为value，以map的形式收集spark数据帧

带空的Seq[(Int，Int)]隐式转换为DataFrame

如何在Spark/Scala中查找多个空列

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐