如何使用过滤器从scala中的dataframe中获取包含空值的行集

文章/答案/技术大牛

发布

3回答

scala、filter、apache-spark-sql、null

我是spark的新手，有一个关于基于空条件过滤数据帧的问题。我已经看过很多答案，它们的解决方案如下 df.filter(($"col2".isNotNULL) || ($"col2" !== "NULL")) 但是在我的例子中，我不能写硬编码的列名，因为我的模式是不固定的。我正在读取csv文件，根据其中的列，我必须过滤我的数据帧中的

浏览 69提问于2020-06-18得票数 3

回答已采纳

1回答

为什么filter默认删除spark dataframe上的空值？

sql、apache-spark、null、spark-dataframe

包含null值的基本scala集合上的filter具有以下(且相当直观的)行为：res0: List[String] = List(b, null) 然而，我非常惊讶地发现以下过滤器删除了spark dataframe中的空<

浏览 27提问于2018-03-05得票数 9

回答已采纳

1回答

如何为给定列添加行和值？

java、apache-spark、apache-spark-sql

因此，我现在有以下DataFrame，其值如下：+-------+--------++-------+--------++-------+--------+ 其中时间没有值(或为空)。如何向TIME列添加值？稍后，我将在我的程序中添加更多的行</e

浏览 5提问于2017-06-26得票数 0

回答已采纳

4回答

如何最有效地将Scala* DataFrame的行转换为case类？*

scala、apache-spark、apache-spark-sql

一旦我在Spark中获得了一些Row类，无论是Dataframe还是催化剂，我都想在代码中将其转换为case类。这可以通过匹配完成。someRow match {case Row(a:Long,b:String,c:Double) => myCaseClass(a,b,c)} 但是，当一行中有大量的列时，比如十几个双打，一些布尔人，甚至偶尔的空列，情况就变得很糟糕了。我只想能-抱歉-把排到myCaseClass.这是可能的，还是我已经有了最经济的

浏览 9提问于2015-01-27得票数 55

回答已采纳

1回答

N列m行的动态数据帧

scala、apache-spark

从json(动态模式)读取数据，并将其加载到dataframe。示例数据帧：import spark.implicits._ (1, "ABC"), (3, "GHIJ")someDF: org.a

浏览 6提问于2020-06-04得票数 0

回答已采纳

2回答

Spark DataFrame对数据集为空

scala、apache-spark

从MS SQL数据库导入数据时，可能会出现空值。在Spark中，DataFrames能够处理空值。但是，当我尝试将DataFrame转换为强类型Dataset时，收到编码器错误。下面是一个简单的例子： def：- field (cla

浏览 2提问于2017-03-31得票数 0

1回答

如何将空行和非空行分离为两个不同的DataFrames？

python、pandas、numpy、dataframe

假设我有一个大的DataFrame (>10000行)，其中有些行包含一个或多个空值。如何从原始DataFrame中删除一个或多个列中包含null的所有行并将行放入另一个DataFrame？例如： a b c 1 "

浏览 0提问于2018-09-21得票数 1

回答已采纳

1回答

在java中激发Dataframe* sql -如何转义单引号*

apache-spark-sql

我使用的是火花-核心，火花-sql，Spark 2.10(1.6.1)，scala-反射2.11.2。我试图过滤通过蜂巢上下文创建的数据. someDF.schema());在出现此筛选器的java类中，我尝试将字符串变量替换为例如commentValueToFilterO

浏览 0提问于2018-07-17得票数 2

3回答

如何让spark为空拼图输出写一个_SUCCESS文件？

apache-spark

我的一个spark作业当前在空输入上运行，因此没有生成任何输出。现在还可以，但我仍然需要知道spark作业是否运行，即使它没有生成拼花输出。目前，如果有输入，它不会向输出的目录写入任何内容，所以我无法确定是否出现了故障(这是一个更大的自动化管道的一部分，因此它会一直重新调度作业，因为没有迹象表明它已经运行了)。

浏览 30提问于2016-02-24得票数 5

1回答

Scala中的再推断序列类型

scala、types

假设我们有一个Any序列seq: Seq[Any] = List(1, 2, null)更新我想要从具有名称和值的列中创建星星之火数据格式。这些值存储在Seq中。<e

浏览 1提问于2020-05-07得票数 0

回答已采纳

1回答

Spark Dataframe，使用其他列的函数添加新列

java、scala、dataframe、apache-spark

在我的scala程序中，我有一个包含两列a和b (都是Int类型)的dataframe df。另外，我有一个先前定义的对象obj，其中包含一些方法和属性。在这里，我想使用来自obj的dataframe和属性的当前值向dataframe df添加一个新列。| 8 |+---+---+ 如果obj有一个属性num: Int = 10和一个方法f(

浏览 16提问于2021-10-21得票数 0

回答已采纳

1回答

火花会话文本和文本文件方法之间的区别？

scala、apache-spark、dataframe、dataset、spark-shell

我正在使用，并尝试从文本文件中创建数据和数据集。要从文本文件获取数据集，有两个选项，文本和textFile方法，如下所示：csv format jdbc json load optionoptions orc parquet schema table text textFile

浏览 0提问于2019-03-28得票数 1

回答已采纳

2回答

如何在pyspark dataframe中返回空值的行？

python、pyspark、apache-spark-sql

我正在尝试从pyspark dataframe中获取空值的行。在pandas中，我可以在数据帧上使用isnull()来实现这一点：但在PySpark的情况下，当我运行以下命令时，它显示Attributeerror：AttributeError：'DataFrame</

浏览 25提问于2018-11-27得票数 5

2回答

如何将带有小数的spark DataFrame转换为具有相同精度的BigDecimal的数据集？

scala、apache-spark、apache-spark-sql、apache-spark-dataset

如何创建具有给定精度的BigDecimal的spark数据集？请参见spark shell中的以下示例。您将看到，我可以创建具有所需BigDecimal精度的DataFrame，但无法将其转换为Dataset。explicit cast to the input data or choose a higher precision type of the field in the target object; 同样，我无法从使用

浏览 73提问于2019-11-14得票数 2

回答已采纳

1回答

使用scala从excel构建数据框架

excel、scala、apache-spark、apache-spark-sql、spark-excel

我正在寻找使用scala从spark中的excel文件构造数据格式的方法？我在下面引用了这样的帖子，并试图为一个excel表做一个附加的操作。不幸的是，下面修改的代码没有读取excel中的所有列。我的目标是从随机分布的工作表中获取所有数据，然后从其中获取</

浏览 3提问于2018-06-11得票数 0

回答已采纳

2回答

创建基于给定操作列的新数据集

apache-spark、apache-spark-sql、spark-streaming

我使用的是星星之火-SQL2.3.1v，并有以下场景：val ds = Seq( (2, null, "y2", "2.2500000当对列"col_x“执行一些操作时，我需要通过筛选出所有具有"col_x”空值的记录并返回新的数据集来创建一个新的</e

浏览 2提问于2020-05-23得票数 0

回答已采纳

1回答

Pyspark Dataframe:无法解析列的计算平均值/平均值/agg(包括空值)

exception、pyspark、casting、apache-spark-sql、dataset

我正在运行一个胶水作业，并且我的数据集包含一个列，该列的运行爬网程序的空values.As很少，该列的数据类型被标识为'double‘。当用列的均值替换空值时，我不能计算均值，因为它说均值/avg/agg只能应用于数值列。在对IntegerType或DecimalType进行类型转换时 dataframe_temp = dataframe.withCo

浏览 3提问于2020-05-30得票数 0

1回答

如何在不使用javaRDD的情况下通过dataframe从hbase获取数据

java

如何在不使用javaRDD的情况下使用dataframe(spark sql)从Hbase获取数据。”行中的异常: hbase.columns.mapping的行字符串的值无效:java.lang.IllegalArgumentException，城市字符串r: city‘at org.apache.hadoop.hbase.spark.Defa

浏览 4提问于2017-05-12得票数 0

2回答

SQLite数据库-比较DateTime

sqlite

我正在处理一个SQLite数据库，其中包含一个以yyyy-MM-dd HH:mm:ss格式存储值的列。现在我需要创建一个过滤器来选择带有过滤器的行作为这个datetime列。from tbl_locations where datetime >= '2013-09-11 00:00:00' and datetime <='2013-09-13 00:00:00' 尽管在这个槽中包含了

浏览 4提问于2013-10-12得票数 2

2回答

熊猫从两栏中的一列中选择一个优先值作为新列。

python-3.x、pandas、dataframe、series

我有一个Pandas DataFrame，它有两列“互补”数据。对于任何给定的行，有三种可能性：3) A列和B列都有空值NaN，这意味着我将保留

浏览 1提问于2019-12-02得票数 3

回答已采纳

点击加载更多