创建另一个列，用于检查pyspark中的不同值

我希望有低于预期的输出：我的代码： import numpy as npsp_dataframe = sp_dataframe.withColumn('sign', sign_acc_row('values')) sp_dataframe.show() 我想创建另一个列，当值不同于

浏览 17提问于2020-01-19得票数 0

回答已采纳

1回答

如何创建一个函数来检查dataframe的PySpark列中的一行是否与另一个dataframe的同一列中的另一行匹配？

、、

如何创建一个函数来检查一个数据文件的PySpark列中的一行是否与另一个Pysark dataframe的同一列中的另一行匹配？我想创建一个新列，如果记录中的该值存在于另一个dataframe中，该列将显示验证。除了要加入的</em

浏览 5提问于2021-12-11得票数 1

回答已采纳

1回答

创建一个新列，详细说明一个PySpark数据row中的行是否与另一列中的一个行匹配。

、、、

我想要创建一个函数，该函数从PySpark中的左联接创建一个新列，详细说明一个列中的值是否匹配或不匹配另一个dataframe逐行的列。例如，我们有一个PySpark dataframe (d1)具有列ID和名称，另一个PySpark dataframe (d2)具有相同的<

浏览 3提问于2021-12-11得票数 0

1回答

pyspark.sql.functions -计数以考虑空值：

、

我试图让pyspark.sql.functions.count()函数或pyspark.sql.functions.count_distinct()函数在计算列中不同元素的数量时考虑null值。accounts| null|+---+------+-----------+------+ 现在，如果我运行以下代码来计算每个列中不同值<

浏览 12提问于2022-06-07得票数 0

1回答

完整数据帧的火花散列

、

是否可以找到完整PySpark数据的哈希值(最好是散列256)。我不想找到单个行或列的散列。我知道pySpark中存在函数，用于从pyspark.sql.functions导入sha2进行列级哈希计算。所需的是根据年份划分一个大数据，并为每年(小数据)查找散列值并将结果持久化到一个表中。输入(产品，质量，商店，SoldDate

浏览 8提问于2022-12-04得票数 0

1回答

categoricalFeaturesInfo += (1 -> 7) java.lang.IllegalArgumentException:需求失败: DecisionTree要求maxBins (= 3)至少与每个分类特性中的值数目一样大，但是分类功能0有31个值。考虑删除具有大量值的此功能和其他分类功能，或添加更多的培训示例。31，我尝试过maxBins = 32 (根据这些帖子中的答案)。就像试用n错误一样，我尝试了所有的值</

浏览 1提问于2017-11-20得票数 0

1回答

基于2个spark数据帧中的匹配zip，创建用于距离计算的纬度和经度对

、、、

我有一个pyspark dataframe A，它有3列：-69 40 trp我有另一个pyspark dataframe B，它具有相同的列，但捕获的值将不同：-68 43 trp我希望根据dataframe B中匹配的邮政编码为A的每个记录创建纬度经度对

浏览 2提问于2017-11-16得票数 0

1回答

如何在PySpark中获取列的最后值

、、

这个问题非常琐碎，但是我在PySpark的世界里是全新的，我面临着很多问题，即使是简单的任务。我已经试过了 df["A"][-1]，但我错了。请注

浏览 1提问于2019-06-21得票数 0

回答已采纳

2回答

PySpark在pyspark.sql.functions.col和pyspark.sql.functions.lit中的差异

、

我发现很难理解这两种方法与pyspark.sql.functions之间的区别，因为PySpark官方网站上的文档并不能提供很好的信息。例如，以下代码：print(F.col('col_name'))研究结果如下：

浏览 10提问于2017-09-24得票数 15

1回答

如何在集合的pyspark* dataframe中使用布尔逻辑*

、、、

我正在尝试在一个pyspark dataframe中创建一个新列，该列基于另一个列的内容。另一列包含所有整数，我希望新列使用1或0进行编码。import pyspark.sql.functions as F df2 = df2.withColumn('Industrial', F.when(F.col('CODE') in (1,2,3,4), 1).othe

浏览 10提问于2019-05-30得票数 0

回答已采纳

1回答

如何过滤清单中的值列？

、、

我有一个数据rawdata，在此数据上，我必须在列X上应用筛选条件，值为CB、CI和CR。

浏览 0提问于2017-10-12得票数 21

回答已采纳

1回答

PySpark:基于其他列中的空值创建新列

、、

我正在进行一个PySpark转换，以便根据另一个列中的空值创建一个新列。下面是示例输入数据：这是预期的输出数据：

浏览 2提问于2022-09-07得票数 -2

1回答

如何在pyspark中查找不符合规则的行

、、

我正在尝试查找和隔离某些列不遵循特定模式的行。我从databricks文档中找到了以下示例，用于识别和检查列值是否为整数，并将错误记录写入json文件。我想确定一个列值是否像1,245.00，而坏记录是否像1.245,00。这些值可以改变位数，只想检查数据是否像pyspark中的1,245.00那样遵循模式。有时在原始数据中，逗号和点是互换<e

浏览 28提问于2020-07-16得票数 0

1回答

了解列在PySpark数据帧中是否具有常量值的最快方法

、

我想断言PySpark DataFrame列的值是否在所有行中都是相同的。0.0|| 1.0| 0.0|+----------+----------+1-检查stddev = 0：2-获取不同<em

浏览 10提问于2018-08-31得票数 2

回答已采纳

3回答

检查其他列pyspark* df中是否存在列pyspark df的值*

、、、、

我有2个pyspark数据格式，我想要检查一个列的值是否存在于另一个dataframe的列中。df_A["column1"].isin(df_B["column1"]) 提

浏览 4提问于2020-11-27得票数 2

回答已采纳

1回答

如何将电火花列(pyspark.sql.column.Column)转换为火花放电数据？

、、

我有一个用例来映射基于条件的pyspark列的元素。通过这个文档，我找不到一个函数来执行映射函数。因此，尝试使用pyspark映射函数，但无法将pyspark列转换为dataFrame带有时间戳字符串的pyspark列我想要<

浏览 4提问于2021-11-19得票数 0

回答已采纳

1回答

Pyspark -添加一个列，对先前连续的累积值进行计数

、、、

问题在标题中，但是如何在Pyspark中创建一个新列，该列累计计算以前重复的值的数量？例如： | Value| 0| 5| 0| 0 将其应用于value列将生成一个新的值列 | Value | Result | 0 |

浏览 12提问于2019-12-13得票数 1

回答已采纳

1回答

将用户函数应用于整个Spark DataFrame列

、、

nullable = true) |-- Volume: double (nullable = true)rdd.fold(0, lambda x,y: x+y) 但是testtbl.Close不是rdd，它是一个功能有限的列对象。testtbl的行是rdds，列不是rdd

浏览 1提问于2016-07-26得票数 1

1回答

检查火花数据中的行值是否为空。

、、、、

我正在使用pyspark中的自定义函数来检查星火数据true中每一行的条件，如果条件为true，则添加列。守则如下：from pyspark.sql.functions import *sdf.show() 我在下面提到了错误：

浏览 3提问于2016-08-19得票数 7

3回答

打印列中的所有类别

、、

我有一个很大的数据空间，其中有一个名为location的列，只有少数几个城市，例如：["New York", "London", "Paris", "Berlin"...]。我希望在该列中打印所有不同的值，例如，我知道是否缺少一个城市的值。既然.describe('location')方法没有帮助，我怎么能这样做呢？

浏览 1提问于2018-11-14得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何创建一个函数来检查dataframe的PySpark列中的一行是否与另一个dataframe的同一列中的另一行匹配？

创建一个新列，详细说明一个PySpark数据row中的行是否与另一列中的一个行匹配。

pyspark.sql.functions -计数以考虑空值：

完整数据帧的火花散列

Scala - MaxBins错误-决策树-范畴变量

基于2个spark数据帧中的匹配zip，创建用于距离计算的纬度和经度对

如何在PySpark中获取列的最后值

PySpark在pyspark.sql.functions.col和pyspark.sql.functions.lit中的差异

如何在集合的pyspark* dataframe中使用布尔逻辑*

如何过滤清单中的值列？

PySpark:基于其他列中的空值创建新列

如何在pyspark中查找不符合规则的行

了解列在PySpark数据帧中是否具有常量值的最快方法

检查其他列pyspark* df中是否存在列pyspark df的值*

如何将电火花列(pyspark.sql.column.Column)转换为火花放电数据？

Pyspark -添加一个列，对先前连续的累积值进行计数

将用户函数应用于整个Spark DataFrame列

检查火花数据中的行值是否为空。

打印列中的所有类别

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐