pySpark数据框中的累积乘积

、、

-+---++---+---+ | 1| 2| | 1| 4|| a| b| c|| 1| 1| 1|| 1|

浏览 32提问于2019-05-03得票数 1

回答已采纳

1回答

如何基于与另一列的所有先前值相关的函数在pandas中创建新列

、、

例如，我有一个具有列A的数据框，如下所示： import pandas as pd df=pd.DataFrame({'A': [4, 2, 5, 7, 1]}) 我想要创建另一个列'B‘，它的基础是从第一行开始乘以所有先前的A值，因此它应该在行号之后如下所示： 4, 8, 40, 280, 280 这是作为pandas中的一个函数来实现的，还是有其他方法？

浏览 15提问于2020-10-01得票数 1

1回答

groupby + cumprod (Python)的替代方案？

、、、、

我有上面的数据框，它显示了资产A，B…Z的月度回报+1。df.groupby(df.index.year).cumproduct() 但这是行不通的，因为cumproduct不是一个聚合器。有人能提出另一种方法吗？

浏览 0提问于2021-05-01得票数 1

1回答

Pyspark -具有重置条件的累积和

、、、、

我有这个数据框 +---+----+---++---+----+---+| 1| 3.0| 0||| 1|| 8|null| 1|| 10| 2.0| 0|+---+----+---+ 我需要做的是从列C到下一个值为零的值的累积和。8|null| 1| 3| | 9| 5.0|

浏览 9提问于2019-05-31得票数 6

回答已采纳

1回答

Excel:基于范围提取数据

、

我有一个售出产品数量的表格： ? 我有另一个表，可以计算累计售出的产品 ? 我有一个价格表，基于售出的产品数量： ? 我应该写什么方程式来根据累积数据得到产品的成本价？基本上，到2022年，当A类的累计乘积小于10时，乘数价格为5美元，但在2023年，当累计乘积大于10时，乘数为3美元。 ? 请注意，实际数据集具有多个范围的价格乘数，售出的产品数量以百万为单

浏览 17提问于2020-07-01得票数 0

1回答

如何求向量的不定积分并绘制它

、、、、

我是Matlab的新手，我想要集成一个分段积分向量。用于创建向量的代码如下所示：t=0:dt:6; g(t>=0 & t<=1)=1*t(t>=0 & t<=1);g(对于‘double’类型的输入参数，我总是会得到错误“未定义函数'int‘”。

浏览 1提问于2016-07-07得票数 1

回答已采纳

1回答

窗口函数在非恒定帧大小星火中的应用

、、、

更具体地说，我通过一个名为rank_id的变量对数据进行排序，并希望对索引$x+1$和$2x-1$之间的任何索引$x$进行滚动和排序。因此，我的rangeBetween必须依赖于rank_id变量值。使用window函数，我能够在给定数量的索引上运行累积和(这里使用rangeBetween，但在本例

浏览 3提问于2018-01-10得票数 3

回答已采纳

1回答

我有一些每日回报估计和月度间(MTD)回报的组合，这是每周发布的。我想将这两个数据序列结合起来，得到每日估计的MTD值。我试着总结一下下面我想要表达的观点。 ? 我得到了除了MTD_estimate之外的所有列，我想从DailyReturnEstimate和MTD派生它。如果存在MTD值，则它应该使用该值。否则，它应该做回报的累积乘积。我的代码如下所示 select *, exp(sum(log(1+Dail

浏览 73提问于2020-10-13得票数 1

回答已采纳

1回答

如何找到子树节点乘法的最大值？

给出了一个有N个结点的树。节点的权重在-1000到1000之间。我的要求是找到子树节点乘法的最大值。你有什么想法/算法来解决这个问题吗？

浏览 0提问于2015-10-12得票数 0

1回答

Postgres连续累积计数

、、

假设表a有数据|----|-------------|| 2 | 12345677677 | 我需要一个在给定时间点返回累积计数的查询。感谢@klin，它非常好地工作；但是，使用window函数，我很难在一个查询中每天获得不同的计数(*)和累积和。AS sum ) AS sub GROUP

浏览 2提问于2017-11-13得票数 0

1回答

在pyspark数据帧中查找非重叠窗口

、、、

假设我有一个以秒为单位的id列和时间列(t)的pyspark数据帧。对于每个id，我希望对行进行分组，以便每个组都包含在该组开始时间之后5秒内的所有条目。我可以接受在Scala中使用自定义UDAF的解决方案，只要它是有效的。计算每个组中的(cumsum(t)-(cumsum(t)%5))/5可以用来识别第一个窗口，但不能识别超出第一个窗口的窗口。本质上，问题是在找到第一个窗口后，需要将累积</em

浏览 20提问于2019-07-19得票数 0

1回答

PySpark传递列表给用户定义的函数

、、、、

我有一个只有一列的DataFrame。在该列的每一行中，都有一个具有不同整数数的列表。例如，第1行有一个包含5个整数的列表。第2行有一个包含8个整数的列表.我想要编写一个UDF，它将每一行作为一个列表，并将列表中的所有整数相乘，并将结果作为一个数字返回。我希望在另一列中得到答案，因此出于某种原因，它将是df.withColumn(.)，我确实希望使用UDF，而不是任何其他预先构建的函数或命令。谢谢你的</em

浏览 15提问于2020-01-10得票数 0

2回答

火花放电累积计数

我想每天生成一个网站唯一访问者的累积计数，而pyspark本机功能在移动/增长窗口中不起作用。关于下列数据：|day|user|| 1| A|| 3| A|| 5| C|| 4| 3| -> [A,B,C]+---+---------+ PS:原始<e

浏览 2提问于2020-12-02得票数 0

回答已采纳

2回答

PySpark -添加一个递增的数字列，该列根据另一个列值的变化重置为1

、

首先，我应该说，我对Python和PySpark都很陌生，我的大部分经验都是在MS、C#、VB.NET等方面。我有一个数据帧，我想在其中添加一个'group_number‘字段。|+-----+----------------+-------------+ 日期时间值是不相关的，因为它们可以在不同的点开始和结束，并且在每个组中以不同的数量递增，我只需要一个数字(从1到x)来按时间

浏览 57提问于2020-01-23得票数 0

回答已采纳

3回答

R中数据框中所有列的乘积

、

假设我有一个这样的数据框如何获得dplyr中所有列的成对乘积？如果我知道数据框中的所有列名，这将是微不足道的。我只需要调用一个常规的mutate() mutate(prod=x*y*z) 但是假设我不知道列名和列数，那么获得所有列的乘积<

浏览 0提问于2020-09-24得票数 1

1回答

PySpark中的群累积计数

、

我有如下数据：id | name | 1 | joe | 2 | jane中使用相同的逻辑，但没有成功。--------------- 11 | john | 3 | jo |如何在PySpark中实现相同的功能？任何帮助都是非常感谢的。

浏览 0提问于2019-04-10得票数 0

回答已采纳

1回答

计算Pandas中的值，该值基于不循环的过去值的乘积。

、、

我有一个代表时间序列概率的数据。列'Single‘中的每个值表示该事件在该时间段内发生的概率(其中每一行代表一个时间段)。列“累积”中的每个值表示该事件发生在该时刻之前的每个时间段的概率(即它是从时间0到现在的“单个”中每个值的乘积)。累积”列，我循环如下所示的数据： for ind

浏览 0提问于2018-05-16得票数 0

回答已采纳

1回答

pyspark中的高效累积枢轴

、

有没有一种更有效/更惯用的方式来重写这个查询： spark.table('registry_data') .withColumn('3m', col('3m')+col('1m')+col('1w')) .withColumn('1m', col('1m')+col('1w&#

浏览 6提问于2021-06-26得票数 0

回答已采纳

1回答

更改matplotlib中的自行车顺序

、

', ':']) 在上述代码中，所绘制的线条将使用红色8次(用于线条样式和标记的不同组合)，然后使用颜色为8次的绿色。

浏览 3提问于2017-10-28得票数 2

回答已采纳

1回答

pySpark滞后函数可以引用自己吗？

、、、

我正在寻找一种方法来增长列中的累积值，使用pySpark中的滞后函数首先在列中获取前一个值，然后添加到该列中，但是它失败了，因为它可能在它存在之前找不到自己。有办法绕道吗？

浏览 4提问于2022-03-17得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何基于与另一列的所有先前值相关的函数在pandas中创建新列

groupby + cumprod (Python)的替代方案？

Pyspark -具有重置条件的累积和

Excel:基于范围提取数据

如何求向量的不定积分并绘制它

窗口函数在非恒定帧大小星火中的应用

使用来自多列的输入的累积产品

如何找到子树节点乘法的最大值？

Postgres连续累积计数

在pyspark数据帧中查找非重叠窗口

PySpark传递列表给用户定义的函数

火花放电累积计数

PySpark -添加一个递增的数字列，该列根据另一个列值的变化重置为1

R中数据框中所有列的乘积

PySpark中的群累积计数

计算Pandas中的值，该值基于不循环的过去值的乘积。

pyspark中的高效累积枢轴

更改matplotlib中的自行车顺序

pySpark滞后函数可以引用自己吗？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐