腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
创建
另一个
列
,
用于
检查
pyspark
中
的
不同
值
我希望有低于预期
的
输出: 我
的
代码: import numpy as npsp_dataframe = sp_dataframe.withColumn('sign', sign_acc_row('values')) sp_dataframe.show() 我想
创建
另一个
列
,当值
不同
于
浏览 17
提问于2020-01-19
得票数 0
回答已采纳
1
回答
如何
创建
一个函数来
检查
dataframe
的
PySpark
列
中
的
一行是否与
另一个
dataframe
的
同一
列
中
的
另一行匹配?
、
、
如何
创建
一个函数来
检查
一个数据文件
的
PySpark
列
中
的
一行是否与
另一个
Pysark dataframe
的
同一
列
中
的
另一行匹配?我想
创建
一个新
列
,如果记录
中
的
该
值
存在于
另一个
dataframe
中
,该
列
将显示验证。除了要加入
的</em
浏览 5
提问于2021-12-11
得票数 1
回答已采纳
1
回答
创建
一个新
列
,详细说明一个
PySpark
数据row
中
的
行是否与另一
列
中
的
一个行匹配。
、
、
、
我想要
创建
一个函数,该函数从
PySpark
中
的
左联接
创建
一个新
列
,详细说明一个
列
中
的
值
是否匹配或不匹配
另一个
dataframe逐行
的
列
。例如,我们有一个
PySpark
dataframe (d1)具有
列
ID和名称,
另一个
PySpark
dataframe (d2)具有相同
的
<
浏览 3
提问于2021-12-11
得票数 0
1
回答
pyspark
.sql.functions -计数以考虑空
值
:
、
我试图让
pyspark
.sql.functions.count()函数或
pyspark
.sql.functions.count_distinct()函数在计算
列
中
不同
元素
的
数量时考虑null
值
。accounts| null|+---+------+-----------+------+ 现在,如果我运行以下代码来计算每个
列
中
不同
值
<
浏览 12
提问于2022-06-07
得票数 0
1
回答
完整数据帧
的
火花散
列
、
是否可以找到完整
PySpark
数据
的
哈希
值
(最好是散
列
256)。我不想找到单个行或
列
的
散
列
。我知道
pySpark
中
存在函数,
用于
从
pyspark
.sql.functions导入sha2进行列级哈希计算。 所需
的
是根据年份划分一个大数据,并为每年(小数据)查找散
列
值
并将结果持久化到一个表
中
。输入(产品,质量,商店,SoldDate
浏览 8
提问于2022-12-04
得票数 0
1
回答
Scala - MaxBins错误-决策树-范畴变量
、
、
、
categoricalFeaturesInfo += (1 -> 7) java.lang.IllegalArgumentException:需求失败: DecisionTree要求maxBins (= 3)至少与每个分类特性
中
的
值
数目一样大,但是分类功能0有31个
值
。考虑删除具有大量值
的
此功能和其他分类功能,或添加更多
的
培训示例。31,我尝试过maxBins = 32 (根据这些帖子
中
的
答案)。就像试用n错误一样,我尝试了所有的
值</
浏览 1
提问于2017-11-20
得票数 0
1
回答
基于2个spark数据帧
中
的
匹配zip,
创建
用于
距离计算
的
纬度和经度对
、
、
、
我有一个
pyspark
dataframe A,它有3
列
:-69 40 trp我有
另一个
pyspark
dataframe B,它具有相同
的
列
,但捕获
的
值
将
不同
:-68 43 trp我希望根据dataframe B
中
匹配
的
邮政编码为A
的
每个记录
创建
纬度经度对
浏览 2
提问于2017-11-16
得票数 0
1
回答
如何在
PySpark
中
获取
列
的
最后
值
、
、
这个问题非常琐碎,但是我在
PySpark
的
世界里是全新
的
,我面临着很多问题,即使是简单
的
任务。我已经试过了 df["A"][-1],但我错了。请注
浏览 1
提问于2019-06-21
得票数 0
回答已采纳
2
回答
PySpark
在
pyspark
.sql.functions.col和
pyspark
.sql.functions.lit
中
的
差异
、
我发现很难理解这两种方法与
pyspark
.sql.functions之间
的
区别,因为
PySpark
官方网站上
的
文档并不能提供很好
的
信息。例如,以下代码:print(F.col('col_name'))研究结果如下:
浏览 10
提问于2017-09-24
得票数 15
1
回答
如何在集合
的
pyspark
dataframe中使用布尔逻辑
、
、
、
我正在尝试在一个
pyspark
dataframe
中
创建
一个新
列
,该
列
基于
另一个
列
的
内容。另一
列
包含所有整数,我希望新
列
使用1或0进行编码。import
pyspark
.sql.functions as F df2 = df2.withColumn('Industrial', F.when(F.col('CODE') in (1,2,3,4), 1).othe
浏览 10
提问于2019-05-30
得票数 0
回答已采纳
1
回答
如何过滤清单
中
的
值
列
?
、
、
我有一个数据rawdata,在此数据上,我必须在
列
X上应用筛选条件,
值
为CB、CI和CR。
浏览 0
提问于2017-10-12
得票数 21
回答已采纳
1
回答
PySpark
:基于其他
列
中
的
空
值
创建
新
列
、
、
我正在进行一个
PySpark
转换,以便根据
另一个
列
中
的
空
值
创建
一个新
列
。下面是示例输入数据: 这是预期
的
输出数据:
浏览 2
提问于2022-09-07
得票数 -2
1
回答
如何在
pyspark
中
查找不符合规则
的
行
、
、
我正在尝试查找和隔离某些
列
不遵循特定模式
的
行。我从databricks文档中找到了以下示例,
用于
识别和
检查
列
值
是否为整数,并将错误记录写入json文件。我想确定一个
列
值
是否像1,245.00,而坏记录是否像1.245,00。这些
值
可以改变位数,只想
检查
数据是否像
pyspark
中
的
1,245.00那样遵循模式。 有时在原始数据
中
,逗号和点是互换<e
浏览 28
提问于2020-07-16
得票数 0
1
回答
了解
列
在
PySpark
数据帧
中
是否具有常量值
的
最快方法
、
我想断言
PySpark
DataFrame
列
的
值
是否在所有行中都是相同
的
。0.0|| 1.0| 0.0|+----------+----------+1-
检查
stddev = 0:2-获取
不同
<em
浏览 10
提问于2018-08-31
得票数 2
回答已采纳
3
回答
检查
其他
列
pyspark
df
中
是否存在
列
pyspark
df
的
值
、
、
、
、
我有2个
pyspark
数据格式,我想要
检查
一个
列
的
值
是否存在于
另一个
dataframe
的
列
中
。df_A["column1"].isin(df_B["column1"]) 提
浏览 4
提问于2020-11-27
得票数 2
回答已采纳
1
回答
如何将电火花
列
(
pyspark
.sql.column.Column)转换为火花放电数据?
、
、
我有一个用例来映射基于条件
的
pyspark
列
的
元素。通过这个文档,我找不到一个函数来执行映射函数。因此,尝试使用
pyspark
映射函数,但无法将
pyspark
列
转换为dataFrame带有时间戳字符串
的
pyspark
列
我想要<
浏览 4
提问于2021-11-19
得票数 0
回答已采纳
1
回答
Pyspark
-添加一个
列
,对先前连续
的
累积
值
进行计数
、
、
、
问题在标题中,但是如何在
Pyspark
中
创建
一个新
列
,该
列
累计计算以前重复
的
值
的
数量?例如: | Value| 0| 5| 0| 0 将其应
用于
value
列
将生成一个新
的
值
列
| Value | Result | 0 |
浏览 12
提问于2019-12-13
得票数 1
回答已采纳
1
回答
将用户函数应
用于
整个Spark DataFrame
列
、
、
nullable = true) |-- Volume: double (nullable = true)rdd.fold(0, lambda x,y: x+y) 但是testtbl.Close不是rdd,它是一个功能有限
的
列
对象。testtbl
的
行是rdds,
列
不是rdd
浏览 1
提问于2016-07-26
得票数 1
1
回答
检查
火花数据
中
的
行
值
是否为空。
、
、
、
、
我正在使用
pyspark
中
的
自定义函数来
检查
星火数据true
中
每一行
的
条件,如果条件为true,则添加
列
。守则如下:from
pyspark
.sql.functions import *sdf.show() 我在下面提到了错误:
浏览 3
提问于2016-08-19
得票数 7
3
回答
打印
列
中
的
所有类别
、
、
我有一个很大
的
数据空间,其中有一个名为location
的
列
,只有少数几个城市,例如:["New York", "London", "Paris", "Berlin"...]。我希望在该
列
中
打印所有
不同
的
值
,例如,我知道是否缺少一个城市
的
值
。既然.describe('location')方法没有帮助,我怎么能这样做呢?
浏览 1
提问于2018-11-14
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Excel综合应用:如何显著标记出两列数据中的不同值?
一文读懂PySpark数据框
一文读懂 PySpark 数据框
一个Python大数据处理利器:PySpark入门指南
PySpark,大数据处理的Python加速器!
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券