腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
PySpark
-
检查
数据
帧
中
任何
列
中
是否
存在
值
列表
、
、
、
我有一个包含200
列
和大约5亿条记录的Dataframe 'DF‘。我有另一个
值
列表
'l‘。我想要
检查
,对于
列表
l
中
的每个
值
,每个
值
都出现在我的Dataframe DF的哪一
列
中
。
浏览 51
提问于2021-02-02
得票数 2
2
回答
如何
检查
来自不同
数据
帧
的
列
值
?
、
、
、
我有两个
pyspark
数据
帧
,我想
检查
第一个
数据
帧
列
值
是否
存在
于第二
列
dataframe.If第一个
数据
帧
列
值
不
存在
于第二个
数据
帧
列
中
,我需要确定这些
值
并将其写入list.Is有没有更好的方法来使用
pyspark<
浏览 37
提问于2020-09-03
得票数 0
回答已采纳
1
回答
将列有条件地添加到
数据
帧
中
、
、
、
、
我在
PySpark
中有一个
数据
帧
。我想有条件地在
数据
框架
中
添加一
列
。 如果
数据
帧
没有
列
,那么添加一个带有null
值
的
列
。如果
列
存在
,则不执行
任何
操作,并返回与新
数据
帧
相同的
数据
帧
。如何在
PySpark
中
传递条件语句
浏览 6
提问于2017-01-20
得票数 0
回答已采纳
1
回答
动态汇总和重命名
PySpark
中
的聚合
列
、
、
、
、
我有一个
PySpark
数据
帧
(Df),其中包含50+
列
,其中包含一些动态
列
,这些
列
可能
存在
也可能不
存在
,但它们
存在
于一个单独的
列表
(Reqd_col)
中
。我想对
列表
(Reqd_col)
中
存在
的
PySpark
data frame(df)
中
的那些
列
进行汇总(按固定
列
‘regio
浏览 24
提问于2021-09-08
得票数 0
1
回答
检查
列
是否
全部为空
、
、
我有一个列名和一个
数据
帧
。我想
检查
该
列
中
的所有
值
是否
都为空,如果为空,则从
数据
帧
中
删除该
列
。我所做的是
检查
具有非空
值
的
列
的计数,如果count等于0,则删除该
列
,但在
pyspark
中
这似乎是一个开销很大的操作
浏览 0
提问于2019-08-09
得票数 0
0
回答
减去Pandas或
Pyspark
Dataframe
中
的连续
列
、
、
、
、
我想在pandas或
pyspark
数据
帧
中
执行以下操作,但我仍然没有找到解决方案。我描述的操作可以在下图中看到。 请记住,输出
数据
帧
在第一
列
上不会有
任何
值
,因为输入表
中
的第一
列
不能被前一
列
减去,因为它不
存在
。
浏览 1
提问于2016-07-12
得票数 4
回答已采纳
1
回答
根据
列
值
添加行
、
、
、
、
数据
帧
从另一个
数据
帧
列
中提取,我从
列
水果中提取
列
的唯一
值
。fruits.unique(),其结果是数组()获取项目
列表
,只需遍历索引
值
并将其存储在
列表
中
循环
列表
,以
检查
列表
中
的
值
是否
显示在
浏览 6
提问于2022-03-04
得票数 0
2
回答
如何
检查
列表
中
的
值
是否
存在
于dataframe
中
?
、
、
得到一个有5
列
的
数据
框架和包含20个
值
的
列表
。 期望产出:我的代码用于
检查
列表
中
的
值
是否
存在</e
浏览 10
提问于2022-02-07
得票数 1
回答已采纳
3
回答
pySpark
检查
数据
帧
是否
存在
、
、
、
有没有办法
检查
pySpark
中
是否
存在
数据
帧
?我知道在原生python
中
,要
检查
dataframe
是否
存在
:在
pySpark
中
如何做到这一点呢?
浏览 41
提问于2020-06-05
得票数 4
回答已采纳
1
回答
不能将
列
转换为bool
、
、
我正在尝试使用时间更新
PySpark
数据
帧
中
的
列
。我正在使用数组
检查
多个条件。我得到了错误'Cannot convert column into bool'。我假设这是因为我使用in来
检查
一个
值
列表
。
是否
有什么方法可以对所有的
值
进行
检查
,而不是链接几个there语句?
浏览 1
提问于2018-05-23
得票数 0
回答已采纳
2
回答
检查
给定
列表
中
的元素
是否
出现在DataFrame的数组
列
中
、
、
、
、
我有以下在熊猫
数据
帧
上工作的函数 def event_list(df,steps): return df DataFrame有一个名为labels的
列
,
值
为list。此函数接受dataframe和Steps (这是一个
列表
),如果参数
列表
中
的所有元
浏览 136
提问于2021-04-02
得票数 1
回答已采纳
1
回答
Pyspark
:将所有
数据
帧
的字符串转换为foat
、
、
我有一个包含多个
列
(1000)的
数据
框,它们具有字符串类型。我希望将它们转换为不是一
列
一
列
地浮动,而是一次浮动所有
数据
帧
。此外,我知道这是
存在
的: from
pyspark
.sql.types import IntegerType data_df = data_df.withColumn("column_name",
浏览 17
提问于2021-04-15
得票数 0
回答已采纳
1
回答
完整
数据
帧
的火花散
列
、
是否
可以找到完整
PySpark
数据
的哈希
值
(最好是散
列
256)。我不想找到单个行或
列
的散
列
。我知道
pySpark
中
存在
函数,用于从
pyspark
.sql.functions导入sha2进行列级哈希计算。 所需的是根据年份划分一个大
数据
,并为每年(小
数据
)查找散
列
值
并将结果持久化到一个表
中
。输入(产品,质量,商店
浏览 8
提问于2022-12-04
得票数 0
4
回答
Pyspark
:有没有等同于pandas info()的方法?
、
、
、
在
PySpark
中
是否
有与pandas info()方法等效的方法?我正在尝试获取有关
PySpark
中
数据
帧
的基本统计信息,例如:
列
数和行数、空
值
数、
数据
帧
大小 pandas
中
的Info()方法提供了所有这些统计信息。
浏览 4
提问于2017-06-08
得票数 6
1
回答
分组依据
列表
中
的元素
、
、
我是
PySpark
的新手。我创建了spark dataframe,并且我有一个" countries“
列
,其中包含国家
列表
。如何通过
存在
于国家/地区
列表
中
的单个国家/地区来groupBy我的
数据
帧
+-----------------++-----------------+ | [
浏览 4
提问于2019-10-09
得票数 0
1
回答
如何用lambda函数为
pyspark
数据
帧
写reduce?
、
、
、
例如,如果有
pyspark
数据
帧
,并且在某些列上,我想要获取那些
列
值
长度在某个范围内的所有记录。如何使用带有lambda的reduce函数实现这一点。我试着用下面的代码来实现它,但我对此不是很确定。bad_df = reduce(lambda x, (min < f.col(x) < max for x in df.columns if x in col_list)) col_list有我想要
检查
列
值
是否
在范围内的
浏览 4
提问于2020-08-20
得票数 0
2
回答
以每列为关键字将
PySpark
数据
帧
转换为JSON
、
、
、
我正在研究
PySpark
。我有一个
数据
框,我需要将其转储为JSON文件,但JSON文件应具有以下格式,例如- {"Column 1": [9202, 9202, 9202, ....], "Column 2": ["FEMALE因此,每
列
应该有一个键,相应的
值
应该包含该
列
中
的所有
值
的
列表
我尝试将其转换为Pandas
数据
帧
,然后在将其作为JSON转储之前转换为字典,并
浏览 14
提问于2019-12-18
得票数 1
回答已采纳
0
回答
PySpark
数据
帧
:根据条件同时更改两
列
、
、
我想知道
是否
有一种方法可以同时更改
PySpark
数据
帧
的两
列
(或更多
列
)。现在我正在使用withColumn,但我不知道这
是否
意味着条件将被
检查
两次(对于大型
数据
帧
来说,这可能太昂贵了)。这段代码主要是
检查
其他两
列
(对于同一行)
中
的
值
,并在此基础上将两
列
更改为None/null。
浏览 2
提问于2017-06-21
得票数 1
回答已采纳
4
回答
检查
python日期
列表
中
是否
有日期在两个日期
列
之间
、
、
、
我有一个包含两
列
的
数据
帧
。一个是START_DATE,一个是END_DATE。我还有一个python的日期
列表
。我想要
数据
帧
中
的第三
列
,它指示我的python
列表
中
是否
有
任何
日期落在
数据
帧
中
每个特定行的START_DATE和END_DATE之间。如果日期
列表
中
的日期介于START_DATE和E
浏览 0
提问于2019-07-11
得票数 4
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券