腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
PySpark
中
的
数据
帧
求和
、
、
我
的
数据
框看起来像-1 a 1003 c 400我
的
最终
数据
框应该是-3 c 400 900 4 d 100
浏览 25
提问于2019-11-24
得票数 0
1
回答
基于窗口和滑动区间索引
的
Pyspark
数据
聚合
、
、
我目前遇到了一个问题,我想在我
的
csv上使用窗口和滑动间隔,并对每个窗口执行
数据
聚合以获得最常见
的
类别。但是,我没有时间戳,我想在索引列上执行窗口滑动。有谁能告诉我如何在索引上使用窗口+滑动间隔
的
正确方向吗?schema = StructType().add("index", "string").add( "Category", "integ
浏览 1
提问于2021-07-10
得票数 0
1
回答
pyspark
:计算
数据
帧
中所有元素
的
总和
、
我正在尝试用
pyspark
计算
数据
帧
中所有元素
的
总和。total', sum(df[colname] for colname in df.columns))为了提高函数
的
速度,我尝试将其转换为rdd并将其
求和
为 res = df.rdd.map(lambda x: sum(
浏览 24
提问于2020-05-07
得票数 0
1
回答
在
PySpark
中
,从一个
数据
框
中
删除与另一个
数据
框
中
的
行匹配
的
行
、
、
、
、
同样,在亚马逊网络服务与
PySpark
,似乎无法正确,不知何故。我
的
第一个
数据
帧
是先前
数据
转换
的
结果,看起来像这样: DF1: | id | class || 4 | Darryl || 6 | 0 | 我需要对每个类
中
的
值
求和
。作为DF3,我
的
结果
浏览 13
提问于2021-03-28
得票数 0
回答已采纳
2
回答
将
PySpark
数据
帧
转换为
PySpark
.pandas
数据
帧
、
、
在链接
中
,用户可以在Spark3.2
中
的
PySpark
之上与熊猫合作。是否需要很长时间才能将
PySpark
数据
帧
转换为
PySpark
熊猫
数据
框架?我知道将
PySpark
数据
帧
转换为熊猫
数据
框架需要很长时间。
浏览 9
提问于2022-03-02
得票数 1
回答已采纳
1
回答
Pandas版本0.22.0 - drop_duplicates()获得意外
的
关键字参数'keep‘
、
、
、
我正在尝试使用子集(drop_duplicates=‘’,keep=False)在我
的
数据
帧
中
删除重复项。显然,它在我
的
Jupyter Notebook
中
工作正常,但当我试图通过终端以.py文件
的
形式执行时,我得到了以下错误: Traceback (most recent call last): File"/home/source/fork/
PySpark
_Analytics/Notebo
浏览 110
提问于2019-06-20
得票数 1
2
回答
PySpark
列向绑定
在
PySpark
中有什么特定
的
方法可以像我们在r
中
那样绑定两个
数据
帧
吗? 我需要在
PySpark
中
同时绑定
数据
帧
和作为一个
数据
帧
。
浏览 1
提问于2017-08-30
得票数 3
1
回答
在应用pandas udf: IndexError后不能使用.toPandas()或.collect()
、
、
、
我正在使用pandasUDF将标准
的
ML python库应用于
pyspark
DataFrame。在定义了模式并进行了预测之后,我得到了
pyspark
DF作为输出。现在,我想用这个预测
数据
帧
做一些事情,例如,我尝试对列"weekly_forecast_1“
中
的
所有值进行
求和
。当我应用.collect()或.toPandas()方法时,在.fit()
中
得到以下错误 IndexError: too many indices f
浏览 33
提问于2020-11-24
得票数 0
1
回答
如何将Azure Synapse Dataframe转换为JSON on Databricks?
、
、
、
、
因为当我尝试
的
时候,它得到了一个错误。下面是我
的
synapse
的
脚本: @staticmethod .mode(write_mode) ) 这是我选择我
的
表
的
时候= df_dim_store.to
浏览 19
提问于2021-05-31
得票数 0
回答已采纳
2
回答
对dataframe
中
的
一列
求和
,并以int形式返回结果
、
、
我有一个包含一列数字(数量)
的
pyspark
数据
帧
。我需要对该列(Amount)
求和
,然后将结果作为一个python变量
中
的
int返回。
数据
集如下所示:1/1/2013,U2_P1,p@c.com,100,P_P 按总和进行日期分组和聚合。
浏览 2
提问于2018-09-20
得票数 1
1
回答
将列有条件地添加到
数据
帧
中
、
、
、
、
我在
PySpark
中有一个
数据
帧
。我想有条件地在
数据
框架
中
添加一列。 如果
数据
帧
没有列,那么添加一个带有null值
的
列。如果列存在,则不执行任何操作,并返回与新
数据
帧
相同
的
数据
帧
。如何在
PySpark
中
传递条件语句
浏览 6
提问于2017-01-20
得票数 0
回答已采纳
1
回答
在
PySpark
(本地)上编程与在Jupyter Notebook上使用Python编程
、
、
最近我一直在使用
pySpark
,所以我已经习惯了它
的
语法、不同
的
API和HiveContext函数。很多时候,当我开始处理一个项目时,我并不完全知道它
的
范围是什么,或者输入
数据
的
大小,所以有时我最终需要分布式计算
的
全部功能,而在另一些情况下,我最终得到了一些在我
的
本地计算机上运行良好
的
脚本。我
的
问题是,与常规
的
Python/Pandas相比,将
pySpark
作为我
浏览 0
提问于2016-07-27
得票数 1
2
回答
groupby类别并对计数
求和
、
、
Z 453df = df.withColumn('type', when(col("type").isnot("A", "B"))type count A 5000
浏览 20
提问于2021-02-24
得票数 0
回答已采纳
1
回答
Pyspark
使用窗口函数和我自己
的
函数
、
、
、
我有一个Pandas
的
代码,它计算出x窗口上线性回归
的
R2。参见我
的
代码: def lr_r2_Sklearn(data): X = pd.Series(list(range(0,len(data),1return(regressor.score(X,Y)) r2_rolling = df[['value']].rolling(300).agg([lr_r2_Sklearn]) 我做了一个大小为300
的
滚动,并计算每个窗口
的
浏览 29
提问于2020-06-26
得票数 0
回答已采纳
4
回答
如何重命名
数据
框
中
的
列
、
、
我有一个名为d2
的
数据
帧
,它有两列(DEST_COUNTRY_NAME,count) 我创建了一个新
的
数据
框,如下所示: df3 = df2.groupBy("DEST_COUNTRY_NAME").sum('count') 我打算将"sum(count)“列
的
名称更改为"destination_total": df5 = df3.selectExpr("cast(DEST_COUNTRY_NAMETrace
浏览 47
提问于2020-09-10
得票数 0
回答已采纳
1
回答
使用
PySpark
从Blob存储容器加载CSV文件
、
、
、
我无法使用Jupyter Notebook
中
的
PySpark
将CSV文件从Azure Blob Storage直接加载到RDD
中
。我已经通读了几乎所有其他类似问题
的
答案,但我还没有找到关于我想要做什么
的
具体说明。我知道我也可以使用Pandas将
数据
加载到Notebook
中
,但之后我需要将Panda DF转换为RDD。我理想
的
解决方案应该是这样
的
,但是这个特定
的
代码给我
的
错误是它不能
浏览 21
提问于2019-04-28
得票数 0
2
回答
从
PySpark
数据
帧
获取第一个元素
、
、
、
我有一个
PySpark
数据
框架,它只包含一个元素。如何从
数据
帧
中提取数字? 例如,如何从
PySpark
数据
帧
中
获得数字5.0?
浏览 0
提问于2022-07-13
得票数 1
回答已采纳
1
回答
如何使用
Pyspark
从xml文件创建子
数据
帧
?
我在
pyspark
中有所有这些支持库,并且我能够为parent创建
数据
帧
- def xmlReader(root, row, filename): return xref df1.head() 我无法创建子<em
浏览 11
提问于2019-03-15
得票数 0
1
回答
从
数据
帧
列表生成单个DataFrame
、
、
、
、
我有一个
数据
帧
列表,在列表
的
每个位置上,我有一个
数据
帧
,我需要将所有这些
数据
帧
合并到一个
数据
帧
中
。在我使用之前,这是在
PySpark
中
完成
的
dataframe_new =pd.concat(listName) 解决方案1 from
pyspark
.sql.types import * f
浏览 12
提问于2021-01-28
得票数 0
1
回答
Pyspark
管道在pandas
数据
帧
上
的
应用
、
、
、
我有一个
pyspark
管道(包含估算和一个机器学习模型)和一个pandas
数据
帧
。我是否可以在不将其转换为
Pyspark
dataframe
的
情况下将管道应用于此pandas
数据
帧
?如果不可能,我如何有效地使用
pyspark
管道来生成对pandas
数据
帧
的
预测?
浏览 3
提问于2021-09-13
得票数 1
点击加载更多
相关
资讯
不同Sheet中相同位置的数据求和
excel中数据带有单位如何求和
tcp/ip模型中,帧是第几层的数据单元?
Excel中让隐藏数据不参与求和计算的操作方法
PySpark,一个大数据处理利器的Python库!
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券