如何使用Pyspark在dataframe中乘以列值(Python)

、、

---------+---------------+---------------------+-----------------+----------------- 我需要做的是创建另一个DF，每个值都乘以一个系数minutos_llamadas_movil0.2 --> minutos_llamadas_fijo 0.1 --> sms_enviados 这意味着我必须将每列中的每一项乘以不同的值，即: minut

浏览 70提问于2021-05-02得票数 0

回答已采纳

2回答

添加带有随机数据的新列

、、、

我想要在dataframe中添加一个包含0或1的值的新列。from random import randint 但我得到了以下错误 / withColumn /python/pyspark/sql/dataframe.py“，第1313行，在withColumn AssertionError( c

浏览 4提问于2017-01-04得票数 13

回答已采纳

2回答

如何将值传递给表中的pyspark变量？

、、

这可能是一个愚蠢的问题，但我有一个表，其中的每一列都包含要传递给变量的值： select sfObject from db.tblwhere Id = {} 我看到的是一个名为sfObject的列，它的预期值为'ValueA‘，我得到一个pyspark.sql.dataframe</em

浏览 1提问于2020-06-10得票数 1

回答已采纳

1回答

如何在PySpark中获取列的最后值

、、

这个问题非常琐碎，但是我在PySpark的世界里是全新的，我面临着很多问题，即使是简单的任务。我已经试过了 df["A"][-1]，但我错了。请注意，如果可能的话，我希望可以为PySpark和Pyspark中<

浏览 1提问于2019-06-21得票数 0

回答已采纳

6回答

Pyspark:通过搜索字典替换列中的值

、、、、

我是PySpark的新手。deviceDict = {'Tablet':'Mobile','Phone':'Mobi

浏览 5提问于2017-05-15得票数 23

回答已采纳

5回答

DataFrame对象没有属性“col”

在“火花:最终指南”中，它说： df.col("count") 但是，当我在包含列count的dataframe上运行后的代码时，就会得到错误'DataFrame<

浏览 2提问于2018-08-12得票数 9

3回答

查看Spark Dataframe列的内容

、、、

我使用的是Spark 1.3.1。我正在尝试查看Python中Spark dataframe列的值。有了Spark dataframe，我可以使用df.collect()来查看数据帧的内容，但在我看来，Spark dataframe列还没有这样的方法。例如，数据帧df包含一个名为'zip_code'的列。所以我可以做df['zip_code']，它会变成一个

浏览 1提问于2015-06-30得票数 43

回答已采纳

3回答

将SCALA === (三等号)转换为用于火花列的Python

、、、

我在Scala中有一段用于Python转换的代码 searchTermsInputTable: DataFrame使用Dataset，它不受Pyspark===支持，用于列，该列也不支持我如何克服这一问题并将其转换

浏览 3提问于2022-03-18得票数 0

1回答

多列上的多聚合

、、

我使用Python在Pyspark框架中。我试图使用groupby在不同的列上应用不同的聚合。我有一个包含col1、col2、col3、col4列的df，我想做这样的事情：df.groupby("col1").sum("col2", "col3").avg("col4") 但是我发现了一个错误："/usr/lib/spark/

浏览 4提问于2019-09-27得票数 0

回答已采纳

2回答

如何检查来自不同数据帧的列值？

、、、

我有两个pyspark数据帧，我想检查第一个数据帧列值是否存在于第二列dataframe.If第一个数据帧列值不存在于第二个数据帧列中，我需要确定这些值并将其写入list.Is有没有更好的方法来使用pysparkdf[Name].show()OracleOracle.NET python

浏览 37提问于2020-09-03得票数 0

回答已采纳

1回答

PySpark - Spark数组与DataFrame列表是否不同？

、、、、

如果我有一个包含arrays的Spark，我可以通过DataFrame在这些数组上使用Python List方法吗？如何将Spark DataFrame array<double>转换为Python列表？下面是一个示例，其中包含一些UDF。我不确定为什么使用最大值可以，但是使用len就不行了。最后，我想用原始数组列中的采样值创建一个新列。这也会得到一

浏览 1提问于2016-10-28得票数 4

回答已采纳

1回答

将一列中的值乘以另一列中的值，忽略熊猫中的零，而不需要硬编码？

、

我希望将列中的值乘以其他列中的值。我通常通过在熊猫中使用以下公式指定列来乘以所使用的值，例如dataframe.column1 * dataframe.column2。下面是示例DataFrame：我想把值乘以如下： PRO_RATE X DEF_POINT2

浏览 1提问于2019-08-24得票数 0

回答已采纳

2回答

如何拆分dataframe列值，并将前两个字符串仅取到新列

、

我在dataframe中有一个列，它的字符串值如下"Software part not present"nullnull

浏览 5提问于2022-09-30得票数 0

10回答

如何将新列添加到星火DataFrame* (使用PySpark)？*

、、、、

我有一个火花DataFrame (使用PySpark 1.5.1)，并希望添加一个新的列。我尝试过以下几种方法，但都没有成功： spark_new_col = sqlContext.createDat

浏览 13提问于2015-11-12得票数 179

回答已采纳

1回答

在Pyspark/Hive中处理更改的数据类型

、、、

在解析pyspark中不一致的数据类型时，我遇到了一个问题。如下面的示例文件所示，SA键总是包含一个字典，但有时它可以显示为string值。当我尝试获取列SA.SM.Name时，会得到如下所示的异常。对于SA.SM.Name列，如何将null设置为除了JSONs之外的值的pyspark/hive。有人能帮帮我吗？/usr/lib/spark/python/

浏览 6提问于2020-10-10得票数 0

1回答

如何将所有的日期格式转换为日期列的时间戳？

、、、

我使用的是PySpark版本3.0.1。我正在将csv文件读取为具有2个日期列的PySpark数据帧。但是，当我尝试打印模式时，两列都被填充为字符串类型。 ? ? 上面附加的屏幕截图是Dataframe和Dataframe模式。如何使用pyspark将date列中的行值转换为时间戳格式？我已经尝试了很多东西，但所有的代码都需要当前的格式，但

浏览 16提问于2020-12-30得票数 2

1回答

在Dataframe上使用where()或filter()时出错

、、、

我想检查Dataframe列first_id中的值是否在我所拥有的in的python列表中，如果是，那么它应该传递过滤器。first_id_list = [1,2,3,4,5,6,7,8,9] 我用python编写，id_<em

浏览 5提问于2019-11-19得票数 0

回答已采纳

1回答

windowPartitionBy和pyspark中的重新分区

、、、

我在SparkR中有一个小代码，我想把它转换成pyspark。我对这个windowPartitionBy并不熟悉，并且重新分区。你能帮我了解一下这段代码是做什么的吗？

浏览 34提问于2020-12-18得票数 0

回答已采纳

2回答

可以从Scala调用python函数吗？

、、、、

我正在创建一个火花作业，它要求使用用python编写的函数将列添加到dataframe中。其余的处理是使用Scala完成的。我已经找到了如何从pyspark调用Java/Scala函数的示例：我发现用另一种方式发送数据的唯一例子是使用pipe。我是否可以将整个dataframe发送到python函数，让函数操作数据并添加其他列，然后将结果数据返回给调

浏览 3提问于2017-09-15得票数 5

1回答

如何使用pyspark将数值转换为分类变量

有一系列数值变量的pyspark数据帧。例如我的dataframe有一个从1到100的列值。1-10 - group1<== 1到10的列值应包含group1作为值11-20 - group2。。。91-100 group10 如何使用pyspark dataframe实现这一点？

浏览 15提问于2019-04-10得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

添加带有随机数据的新列

如何将值传递给表中的pyspark变量？

如何在PySpark中获取列的最后值

Pyspark:通过搜索字典替换列中的值

DataFrame对象没有属性“col”

查看Spark Dataframe列的内容

将SCALA === (三等号)转换为用于火花列的Python

多列上的多聚合

如何检查来自不同数据帧的列值？

PySpark - Spark数组与DataFrame列表是否不同？

将一列中的值乘以另一列中的值，忽略熊猫中的零，而不需要硬编码？

如何拆分dataframe列值，并将前两个字符串仅取到新列

如何将新列添加到星火DataFrame* (使用PySpark)？*

在Pyspark/Hive中处理更改的数据类型

如何将所有的日期格式转换为日期列的时间戳？

在Dataframe上使用where()或filter()时出错

windowPartitionBy和pyspark中的重新分区

可以从Scala调用python函数吗？

如何使用pyspark将数值转换为分类变量

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐