腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
3
回答
pySpark
数据
框
中
的
累积
乘积
、
、
-+---++---+---+ | 1| 2| | 1| 4|| a| b| c|| 1| 1| 1|| 1|
浏览 32
提问于2019-05-03
得票数 1
回答已采纳
1
回答
如何基于与另一列
的
所有先前值相关
的
函数在pandas
中
创建新列
、
、
例如,我有一个具有列A
的
数据
框
,如下所示: import pandas as pd df=pd.DataFrame({'A': [4, 2, 5, 7, 1]}) 我想要创建另一个列'B‘,它
的
基础是从第一行开始乘以所有先前
的
A值,因此它应该在行号之后如下所示: 4, 8, 40, 280, 280 这是作为pandas
中
的
一个函数来实现
的
,还是有其他方法?
浏览 15
提问于2020-10-01
得票数 1
1
回答
groupby + cumprod (Python)
的
替代方案?
、
、
、
、
我有上面的
数据
框
,它显示了资产A,B…Z
的
月度回报+1。df.groupby(df.index.year).cumproduct() 但这是行不通
的
,因为cumproduct不是一个聚合器。有人能提出另一种方法吗?
浏览 0
提问于2021-05-01
得票数 1
1
回答
Pyspark
-具有重置条件
的
累积
和
、
、
、
、
我有这个
数据
框
+---+----+---++---+----+---+| 1| 3.0| 0||| 1|| 8|null| 1|| 10| 2.0| 0|+---+----+---+ 我需要做
的
是从列C到下一个值为零
的
值
的
累积
和。8|null| 1| 3| | 9| 5.0|
浏览 9
提问于2019-05-31
得票数 6
回答已采纳
1
回答
Excel:基于范围提取
数据
、
我有一个售出产品数量
的
表格: ? 我有另一个表,可以计算累计售出
的
产品 ? 我有一个价格表,基于售出
的
产品数量: ? 我应该写什么方程式来根据
累积
数据
得到产品
的
成本价?基本上,到2022年,当A类
的
累计
乘积
小于10时,乘数价格为5美元,但在2023年,当累计
乘积
大于10时,乘数为3美元。 ? 请注意,实际
数据
集具有多个范围
的
价格乘数,售出
的
产品数量以百万为单
浏览 17
提问于2020-07-01
得票数 0
1
回答
如何求向量
的
不定积分并绘制它
、
、
、
、
我是Matlab
的
新手,我想要集成一个分段积分向量。用于创建向量
的
代码如下所示:t=0:dt:6; g(t>=0 & t<=1)=1*t(t>=0 & t<=1);g(对于‘double’类型
的
输入参数,我总是会得到错误“未定义函数'int‘”。
浏览 1
提问于2016-07-07
得票数 1
回答已采纳
1
回答
窗口函数在非恒定帧大小星火中
的
应用
、
、
、
更具体地说,我通过一个名为rank_id
的
变量对
数据
进行排序,并希望对索引$x+1$和$2x-1$之间
的
任何索引$x$进行滚动和排序。因此,我
的
rangeBetween必须依赖于rank_id变量值。使用window函数,我能够在给定数量
的
索引上运行
累积
和(这里使用rangeBetween,但在本例
浏览 3
提问于2018-01-10
得票数 3
回答已采纳
1
回答
使用来自多列
的
输入
的
累积
产品
、
我有一些每日回报估计和月度间(MTD)回报
的
组合,这是每周发布
的
。我想将这两个
数据
序列结合起来,得到每日估计
的
MTD值。 我试着总结一下下面我想要表达
的
观点。 ? 我得到了除了MTD_estimate之外
的
所有列,我想从DailyReturnEstimate和MTD派生它。如果存在MTD值,则它应该使用该值。否则,它应该做回报
的
累积
乘积
。我
的
代码如下所示 select *, exp(sum(log(1+Dail
浏览 73
提问于2020-10-13
得票数 1
回答已采纳
1
回答
如何找到子树节点乘法
的
最大值?
给出了一个有N个结点
的
树。节点
的
权重在-1000到1000之间。我
的
要求是找到子树节点乘法
的
最大值。你有什么想法/算法来解决这个问题吗?
浏览 0
提问于2015-10-12
得票数 0
1
回答
Postgres连续
累积
计数
、
、
假设表a有
数据
|----|-------------|| 2 | 12345677677 | 我需要一个在给定时间点返回
累积
计数
的
查询。感谢@klin,它非常好地工作;但是,使用window函数,我很难在一个查询
中
每天获得不同
的
计数(*)和
累积
和。AS sum ) AS sub GROUP
浏览 2
提问于2017-11-13
得票数 0
1
回答
在
pyspark
数据
帧
中
查找非重叠窗口
、
、
、
假设我有一个以秒为单位
的
id列和时间列(t)
的
pyspark
数据
帧。对于每个id,我希望对行进行分组,以便每个组都包含在该组开始时间之后5秒内
的
所有条目。我可以接受在Scala中使用自定义UDAF
的
解决方案,只要它是有效
的
。 计算每个组
中
的
(cumsum(t)-(cumsum(t)%5))/5可以用来识别第一个窗口,但不能识别超出第一个窗口
的
窗口。本质上,问题是在找到第一个窗口后,需要将
累积</em
浏览 20
提问于2019-07-19
得票数 0
1
回答
PySpark
传递列表给用户定义
的
函数
、
、
、
、
我有一个只有一列
的
DataFrame。在该列
的
每一行
中
,都有一个具有不同整数数
的
列表。例如,第1行有一个包含5个整数
的
列表。第2行有一个包含8个整数
的
列表.我想要编写一个UDF,它将每一行作为一个列表,并将列表
中
的
所有整数相乘,并将结果作为一个数字返回。我希望在另一列
中
得到答案,因此出于某种原因,它将是df.withColumn(.),我确实希望使用UDF,而不是任何其他预先构建
的
函数或命令。谢谢你
的</em
浏览 15
提问于2020-01-10
得票数 0
2
回答
火花放电
累积
计数
我想每天生成一个网站唯一访问者
的
累积
计数,而
pyspark
本机功能在移动/增长窗口中不起作用。关于下列
数据
:|day|user|| 1| A|| 3| A|| 5| C|| 4| 3| -> [A,B,C]+---+---------+ PS:原始<e
浏览 2
提问于2020-12-02
得票数 0
回答已采纳
2
回答
PySpark
-添加一个递增
的
数字列,该列根据另一个列值
的
变化重置为1
、
首先,我应该说,我对Python和
PySpark
都很陌生,我
的
大部分经验都是在MS、C#、VB.NET等方面。 我有一个
数据
帧,我想在其中添加一个'group_number‘字段。|+-----+----------------+-------------+ 日期时间值是不相关
的
,因为它们可以在不同
的
点开始和结束,并且在每个组
中
以不同
的
数量递增,我只需要一个数字(从1到x)来按时间
浏览 57
提问于2020-01-23
得票数 0
回答已采纳
3
回答
R
中
数据
框
中所有列
的
乘积
、
假设我有一个这样
的
数据
框
如何获得dplyr中所有列
的
成对
乘积
?如果我知道
数据
框
中
的
所有列名,这将是微不足道
的
。我只需要调用一个常规
的
mutate() mutate(prod=x*y*z) 但是假设我不知道列名和列数,那么获得所有列
的
乘积<
浏览 0
提问于2020-09-24
得票数 1
1
回答
PySpark
中
的
群
累积
计数
、
我有如下
数据
:id | name | 1 | joe | 2 | jane中使用相同
的
逻辑,但没有成功。--------------- 11 | john | 3 | jo |如何在
PySpark
中
实现相同
的
功能?任何帮助都是非常感谢
的
。
浏览 0
提问于2019-04-10
得票数 0
回答已采纳
1
回答
计算Pandas
中
的
值,该值基于不循环
的
过去值
的
乘积
。
、
、
我有一个代表时间序列概率
的
数据
。列'Single‘
中
的
每个值表示该事件在该时间段内发生
的
概率(其中每一行代表一个时间段)。列“
累积
”
中
的
每个值表示该事件发生在该时刻之前
的
每个时间段
的
概率(即它是从时间0到现在
的
“单个”
中
每个值
的
乘积
)。
累积
”列,我循环如下所示
的
数据
: for ind
浏览 0
提问于2018-05-16
得票数 0
回答已采纳
1
回答
pyspark
中
的
高效
累积
枢轴
、
有没有一种更有效/更惯用
的
方式来重写这个查询: spark.table('registry_data') .withColumn('3m', col('3m')+col('1m')+col('1w')) .withColumn('1m', col('1m')+col('1w
浏览 6
提问于2021-06-26
得票数 0
回答已采纳
1
回答
更改matplotlib
中
的
自行车顺序
、
', ':']) 在上述代码
中
,所绘制
的
线条将使用红色8次(用于线条样式和标记
的
不同组合),然后使用颜色为8次
的
绿色。
浏览 3
提问于2017-10-28
得票数 2
回答已采纳
1
回答
pySpark
滞后函数可以引用自己吗?
、
、
、
我正在寻找一种方法来增长列
中
的
累积
值,使用
pySpark
中
的
滞后函数首先在列
中
获取前一个值,然后添加到该列
中
,但是它失败了,因为它可能在它存在之前找不到自己。有办法绕道吗?
浏览 4
提问于2022-03-17
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一文读懂PySpark数据框
一文读懂 PySpark 数据框
Python中如何去掉数据框的前两行数据
使用Python更改数据框中的指定列
PySpark,大数据处理的Python加速器!
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券