PySpark中的数据帧求和

文章/答案/技术大牛

发布

2回答

、、

我的数据框看起来像-1 a 1003 c 400我的最终数据框应该是-3 c 400 900 4 d 100

浏览 25提问于2019-11-24得票数 0

1回答

基于窗口和滑动区间索引的Pyspark数据聚合

、、

我目前遇到了一个问题，我想在我的csv上使用窗口和滑动间隔，并对每个窗口执行数据聚合以获得最常见的类别。但是，我没有时间戳，我想在索引列上执行窗口滑动。有谁能告诉我如何在索引上使用窗口+滑动间隔的正确方向吗？schema = StructType().add("index", "string").add( "Category", "integ

浏览 1提问于2021-07-10得票数 0

1回答

pyspark:计算数据帧中所有元素的总和

、

我正在尝试用pyspark计算数据帧中所有元素的总和。total', sum(df[colname] for colname in df.columns))为了提高函数的速度，我尝试将其转换为rdd并将其求和为 res = df.rdd.map(lambda x: sum(

浏览 24提问于2020-05-07得票数 0

1回答

在PySpark中，从一个数据框中删除与另一个数据框中的行匹配的行

、、、、

同样，在亚马逊网络服务与PySpark，似乎无法正确，不知何故。我的第一个数据帧是先前数据转换的结果，看起来像这样: DF1： | id | class || 4 | Darryl || 6 | 0 | 我需要对每个类中的值求和。作为DF3，我的结果

浏览 13提问于2021-03-28得票数 0

回答已采纳

2回答

将PySpark数据帧转换为PySpark.pandas数据帧

、、

在链接中，用户可以在Spark3.2中的PySpark之上与熊猫合作。是否需要很长时间才能将PySpark数据帧转换为PySpark熊猫数据框架？我知道将PySpark数据帧转换为熊猫数据框架需要很长时间。

浏览 9提问于2022-03-02得票数 1

回答已采纳

1回答

Pandas版本0.22.0 - drop_duplicates()获得意外的关键字参数'keep‘

、、、

我正在尝试使用子集(drop_duplicates=‘’，keep=False)在我的数据帧中删除重复项。显然，它在我的Jupyter Notebook中工作正常，但当我试图通过终端以.py文件的形式执行时，我得到了以下错误： Traceback (most recent call last): File"/home/source/fork/PySpark_Analytics/Notebo

浏览 110提问于2019-06-20得票数 1

2回答

PySpark列向绑定

在PySpark中有什么特定的方法可以像我们在r中那样绑定两个数据帧吗？我需要在PySpark中同时绑定数据帧和作为一个数据帧。

浏览 1提问于2017-08-30得票数 3

1回答

在应用pandas udf: IndexError后不能使用.toPandas()或.collect()

、、、

我正在使用pandasUDF将标准的ML python库应用于pyspark DataFrame。在定义了模式并进行了预测之后，我得到了pyspark DF作为输出。现在，我想用这个预测数据帧做一些事情，例如，我尝试对列"weekly_forecast_1“中的所有值进行求和。当我应用.collect()或.toPandas()方法时，在.fit()中得到以下错误 IndexError: too many indices f

浏览 33提问于2020-11-24得票数 0

1回答

如何将Azure Synapse Dataframe转换为JSON on Databricks？

、、、、

因为当我尝试的时候，它得到了一个错误。下面是我的synapse的脚本： @staticmethod .mode(write_mode) ) 这是我选择我的表的时候= df_dim_store.to

浏览 19提问于2021-05-31得票数 0

回答已采纳

2回答

对dataframe中的一列求和，并以int形式返回结果

、、

我有一个包含一列数字(数量)的pyspark数据帧。我需要对该列(Amount)求和，然后将结果作为一个python变量中的int返回。数据集如下所示：1/1/2013,U2_P1,p@c.com,100,P_P 按总和进行日期分组和聚合。

浏览 2提问于2018-09-20得票数 1

1回答

将列有条件地添加到数据帧中

、、、、

我在PySpark中有一个数据帧。我想有条件地在数据框架中添加一列。如果数据帧没有列，那么添加一个带有null值的列。如果列存在，则不执行任何操作，并返回与新数据帧相同的数据帧。如何在PySpark中传递条件语句

浏览 6提问于2017-01-20得票数 0

回答已采纳

1回答

在PySpark (本地)上编程与在Jupyter Notebook上使用Python编程

、、

最近我一直在使用pySpark，所以我已经习惯了它的语法、不同的API和HiveContext函数。很多时候，当我开始处理一个项目时，我并不完全知道它的范围是什么，或者输入数据的大小，所以有时我最终需要分布式计算的全部功能，而在另一些情况下，我最终得到了一些在我的本地计算机上运行良好的脚本。我的问题是，与常规的Python/Pandas相比，将pySpark作为我

浏览 0提问于2016-07-27得票数 1

2回答

groupby类别并对计数求和

、、

Z 453df = df.withColumn('type', when(col("type").isnot("A", "B"))type count A 5000

浏览 20提问于2021-02-24得票数 0

回答已采纳

1回答

Pyspark使用窗口函数和我自己的函数

、、、

我有一个Pandas的代码，它计算出x窗口上线性回归的R2。参见我的代码： def lr_r2_Sklearn(data): X = pd.Series(list(range(0,len(data),1return(regressor.score(X,Y)) r2_rolling = df[['value']].rolling(300).agg([lr_r2_Sklearn]) 我做了一个大小为300的滚动，并计算每个窗口的

浏览 29提问于2020-06-26得票数 0

回答已采纳

4回答

如何重命名数据框中的列

、、

我有一个名为d2的数据帧，它有两列(DEST_COUNTRY_NAME，count) 我创建了一个新的数据框，如下所示： df3 = df2.groupBy("DEST_COUNTRY_NAME").sum('count') 我打算将"sum(count)“列的名称更改为"destination_total"： df5 = df3.selectExpr("cast(DEST_COUNTRY_NAMETrace

浏览 47提问于2020-09-10得票数 0

回答已采纳

1回答

使用PySpark从Blob存储容器加载CSV文件

、、、

我无法使用Jupyter Notebook中的PySpark将CSV文件从Azure Blob Storage直接加载到RDD中。我已经通读了几乎所有其他类似问题的答案，但我还没有找到关于我想要做什么的具体说明。我知道我也可以使用Pandas将数据加载到Notebook中，但之后我需要将Panda DF转换为RDD。我理想的解决方案应该是这样的，但是这个特定的代码给我的错误是它不能

浏览 21提问于2019-04-28得票数 0

2回答

从PySpark数据帧获取第一个元素

、、、

我有一个PySpark数据框架，它只包含一个元素。如何从数据帧中提取数字？例如，如何从PySpark数据帧中获得数字5.0？

浏览 0提问于2022-07-13得票数 1

回答已采纳

1回答

如何使用Pyspark从xml文件创建子数据帧？

我在pyspark中有所有这些支持库，并且我能够为parent创建数据帧- def xmlReader(root, row, filename): return xref df1.head() 我无法创建子<em

浏览 11提问于2019-03-15得票数 0

1回答

从数据帧列表生成单个DataFrame

、、、、

我有一个数据帧列表，在列表的每个位置上，我有一个数据帧，我需要将所有这些数据帧合并到一个数据帧中。在我使用之前，这是在PySpark中完成的 dataframe_new =pd.concat(listName) 解决方案1 from pyspark.sql.types import * f

浏览 12提问于2021-01-28得票数 0

1回答

Pyspark管道在pandas数据帧上的应用

、、、

我有一个pyspark管道(包含估算和一个机器学习模型)和一个pandas数据帧。我是否可以在不将其转换为Pyspark dataframe的情况下将管道应用于此pandas数据帧？如果不可能，我如何有效地使用pyspark管道来生成对pandas数据帧的预测？

浏览 3提问于2021-09-13得票数 1

点击加载更多