腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
3
回答
如何
使用
过滤器
从
scala
中
的
dataframe
中
获取
包含
空
值
的
行
集
scala
、
filter
、
apache-spark-sql
、
null
我是spark
的
新手,有一个关于基于空条件过滤数据帧
的
问题。我已经看过很多答案,它们
的
解决方案如下 df.filter(($"col2".isNotNULL) || ($"col2" !== "NULL")) 但是在我
的
例子
中
,我不能写硬编码
的
列名,因为我
的
模式是不固定
的
。我正在读取csv文件,根据其中
的
列,我必须过滤我
的
数据帧
中
的
浏览 69
提问于2020-06-18
得票数 3
回答已采纳
1
回答
为什么filter默认删除spark
dataframe
上
的
空
值
?
sql
、
apache-spark
、
null
、
spark-dataframe
包含
null
值
的
基本
scala
集合上
的
filter具有以下(且相当直观
的
)行为:res0: List[String] = List(b, null) 然而,我非常惊讶地发现以下
过滤器
删除了spark
dataframe
中
的
空
<
浏览 27
提问于2018-03-05
得票数 9
回答已采纳
1
回答
如何
为给定列添加行和
值
?
java
、
apache-spark
、
apache-spark-sql
因此,我现在有以下
DataFrame
,其
值
如下:+-------+--------++-------+--------++-------+--------+ 其中时间没有
值
(或为
空
)。
如何
向TIME列添加值?稍后,我将在我
的
程序
中
添加更多
的
行</e
浏览 5
提问于2017-06-26
得票数 0
回答已采纳
4
回答
如何
最有效地将
Scala
DataFrame
的
行
转换为case类?
scala
、
apache-spark
、
apache-spark-sql
一旦我在Spark
中
获得了一些Row类,无论是
Dataframe
还是催化剂,我都想在代码中将其转换为case类。这可以通过匹配完成。someRow match {case Row(a:Long,b:String,c:Double) => myCaseClass(a,b,c)} 但是,当一
行
中有大量
的
列时,比如十几个双打,一些布尔人,甚至偶尔
的
空
列,情况就变得很糟糕了。我只想能-抱歉-把排到myCaseClass.这是可能
的
,还是我已经有了最经济
的
浏览 9
提问于2015-01-27
得票数 55
回答已采纳
1
回答
N列m
行
的
动态数据帧
scala
、
apache-spark
从
json(动态模式)读取数据,并将其加载到
dataframe
。示例数据帧:import spark.implicits._ (1, "ABC"), (3, "GHIJ")someDF: org.a
浏览 6
提问于2020-06-04
得票数 0
回答已采纳
2
回答
Spark
DataFrame
对数据
集
为
空
scala
、
apache-spark
从
MS SQL数据库导入数据时,可能会出现
空
值
。在Spark
中
,DataFrames能够处理
空
值
。但是,当我尝试将
DataFrame
转换为强类型Dataset时,收到编码器错误。下面是一个简单
的
例子: def:- field (cla
浏览 2
提问于2017-03-31
得票数 0
1
回答
如何
将空行和非空行分离为两个不同
的
DataFrames?
python
、
pandas
、
numpy
、
dataframe
假设我有一个大
的
DataFrame
(>10000
行
),其中有些行
包含
一个或多个
空
值
。
如何
从
原始
DataFrame
中
删除一个或多个列
中
包含
null
的
所有
行
并将
行
放入另一个
DataFrame
?例如: a b c 1 "
浏览 0
提问于2018-09-21
得票数 1
回答已采纳
1
回答
在java
中
激发
Dataframe
sql -
如何
转义单引号
apache-spark-sql
我
使用
的
是火花-核心,火花-sql,Spark 2.10(1.6.1),
scala
-反射2.11.2。我试图过滤通过蜂巢上下文创建
的
数据. someDF.schema());在出现此筛选器
的
java类
中
,我尝试将字符串变量替换为例如commentValueToFilterO
浏览 0
提问于2018-07-17
得票数 2
3
回答
如何
让spark为
空
拼图输出写一个_SUCCESS文件?
apache-spark
我
的
一个spark作业当前在
空
输入上运行,因此没有生成任何输出。现在还可以,但我仍然需要知道spark作业是否运行,即使它没有生成拼花输出。目前,如果有输入,它不会向输出
的
目录写入任何内容,所以我无法确定是否出现了故障(这是一个更大
的
自动化管道
的
一部分,因此它会一直重新调度作业,因为没有迹象表明它已经运行了)。
浏览 30
提问于2016-02-24
得票数 5
1
回答
Scala
中
的
再推断序列类型
scala
、
types
假设我们有一个Any序列seq: Seq[Any] = List(1, 2, null)更新我想要从具有名称和
值
的
列
中
创建星星之火数据格式。这些
值
存储在Seq
中
。<e
浏览 1
提问于2020-05-07
得票数 0
回答已采纳
1
回答
Spark
Dataframe
,
使用
其他列
的
函数添加新列
java
、
scala
、
dataframe
、
apache-spark
在我
的
scala
程序
中
,我有一个
包含
两列a和b (都是Int类型)
的
dataframe
df。另外,我有一个先前定义
的
对象obj,其中
包含
一些方法和属性。在这里,我想
使用
来自obj
的
dataframe
和属性的当前
值
向
dataframe
df添加一个新列。| 8 |+---+---+ 如果obj有一个属性num: Int = 10和一个方法f(
浏览 16
提问于2021-10-21
得票数 0
回答已采纳
1
回答
火花会话文本和文本文件方法之间
的
区别?
scala
、
apache-spark
、
dataframe
、
dataset
、
spark-shell
我正在
使用
,并尝试
从
文本文件
中
创建数据和数据
集
。要从文本文件
获取
数据
集
,有两个选项,文本和textFile方法,如下所示:csv format jdbc json load optionoptions orc parquet schema table text textFile
浏览 0
提问于2019-03-28
得票数 1
回答已采纳
2
回答
如何
在pyspark
dataframe
中
返回空
值
的
行
?
python
、
pyspark
、
apache-spark-sql
我正在尝试
从
pyspark
dataframe
中
获取
空
值
的
行
。在pandas
中
,我可以在数据帧上
使用
isnull()来实现这一点:但在PySpark
的
情况下,当我运行以下命令时,它显示Attributeerror:AttributeError:'
DataFrame</
浏览 25
提问于2018-11-27
得票数 5
2
回答
如何
将带有小数
的
spark
DataFrame
转换为具有相同精度
的
BigDecimal
的
数据
集
?
scala
、
apache-spark
、
apache-spark-sql
、
apache-spark-dataset
如何
创建具有给定精度
的
BigDecimal
的
spark数据
集
?请参见spark shell
中
的
以下示例。您将看到,我可以创建具有所需BigDecimal精度
的
DataFrame
,但无法将其转换为Dataset。explicit cast to the input data or choose a higher precision type of the field in the target object; 同样,我无法
从
使用
浏览 73
提问于2019-11-14
得票数 2
回答已采纳
1
回答
使用
scala
从
excel构建数据框架
excel
、
scala
、
apache-spark
、
apache-spark-sql
、
spark-excel
我正在寻找
使用
scala
从
spark
中
的
excel文件构造数据格式
的
方法?我在下面引用了这样
的
帖子,并试图为一个excel表做一个附加
的
操作。 不幸
的
是,下面修改
的
代码没有读取excel
中
的
所有列。我
的
目标是
从
随机分布
的
工作表
中
获取
所有数据,然后
从
其中
获取</
浏览 3
提问于2018-06-11
得票数 0
回答已采纳
2
回答
创建基于给定操作列
的
新数据
集
apache-spark
、
apache-spark-sql
、
spark-streaming
我
使用
的
是星星之火-SQL2.3.1v,并有以下场景:val ds = Seq( (2, null, "y2", "2.2500000当对列"col_x“执行一些操作时,我需要通过筛选出所有具有"col_x”
空
值
的
记录并返回新
的
数据
集
来创建一个新
的</e
浏览 2
提问于2020-05-23
得票数 0
回答已采纳
1
回答
Pyspark
Dataframe
:无法解析列
的
计算平均值/平均值/agg(包括
空
值
)
exception
、
pyspark
、
casting
、
apache-spark-sql
、
dataset
我正在运行一个胶水作业,并且我
的
数据
集
包含
一个列,该列
的
运行爬网程序
的
空
values.As很少,该列
的
数据类型被标识为'double‘。当用列
的
均值替换
空
值
时,我不能计算均值,因为它说均值/avg/agg只能应用于数值列。在对IntegerType或DecimalType进行类型转换时
dataframe
_temp =
dataframe
.withCo
浏览 3
提问于2020-05-30
得票数 0
1
回答
如何
在不
使用
javaRDD
的
情况下通过
dataframe
从
hbase
获取
数据
java
如何
在不
使用
javaRDD
的
情况下
使用
dataframe
(spark sql)
从
Hbase
获取
数据。”
行
中
的
异常: hbase.columns.mapping
的
行
字符串
的
值
无效:java.lang.IllegalArgumentException,城市字符串r: city‘at org.apache.hadoop.hbase.spark.Defa
浏览 4
提问于2017-05-12
得票数 0
2
回答
SQLite数据库-比较DateTime
sqlite
我正在处理一个SQLite数据库,其中
包含
一个以yyyy-MM-dd HH:mm:ss格式存储
值
的
列。现在我需要创建一个
过滤器
来选择带有
过滤器
的
行
作为这个datetime列。from tbl_locations where datetime >= '2013-09-11 00:00:00' and datetime <='2013-09-13 00:00:00' 尽管在这个槽
中
包含
了
浏览 4
提问于2013-10-12
得票数 2
2
回答
熊猫
从
两栏
中
的
一列中选择一个优先
值
作为新列。
python-3.x
、
pandas
、
dataframe
、
series
我有一个Pandas
DataFrame
,它有两列“互补”数据。对于任何给定
的
行
,有三种可能性:3) A列和B列都有空
值
NaN,这意味着我将保留
浏览 1
提问于2019-12-02
得票数 3
回答已采纳
点击加载更多
相关
资讯
Pandas中如何删除空值所在的行
肝了3天,整理了90个Pandas案例
教程:Apache Spark SQL入门及实践指南!
手把手教你做一个“渣”数据师,用Python代替老情人Excel
pandas系列学习(三):DataFrame
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
语音识别
活动推荐
运营活动
广告
关闭
领券