提高pandas和apply语句的速度或替换

、、

我有一个几百万行的中型数据帧，我发现逐组对列求和非常慢。return pd.Series(x.sum(), index=x.index) summary_df['cost'] = output_df.groupby(['id', 'run'])['cost'].apply对于每个run值，有10000个不同的id值，即每个run值对应10000个组。run本身包含数百个不同的值。这两列都是整数。我读到过，对于中等大小的数据<

浏览 27提问于2021-05-23得票数 1

回答已采纳

1回答

Pandas DataFrame的条件级联

、

我正在连接的列，并希望提高代码的速度。9 str(r.loc['apple']) + ' :: ' + str(r.loc['pear'])+'into result else str(r.loc['apple&#x

浏览 0提问于2017-02-06得票数 4

回答已采纳

2回答

如何用一个函数替换字符串数据帧中的多个字符

我正在尝试用"“替换字符串中的一些字符。我正在尝试使用lambda函数来丢弃字符串中不需要的字符。请帮我解决这个问题。我的示例是： import pandas as pd2 Candy-go 3 Bread

浏览 56提问于2020-12-01得票数 0

回答已采纳

1回答

使用基于条件的if语句填充熊猫数据帧中缺少的值

、、、

我有一个Pandas数据框架，其中缺少一些值。例如，在第542行中缺少纬度的值。我的目标是基于条件CNTY_CITY_LOC，通过在Pandas中应用if elif和apply函数来填补纬度的缺失值。在我使用Pandas的apply函数应用if语句后，丢失的值将被替换，但纬度列中的所有其他值都会丢失。我做错了什么？谢谢你的帮忙

浏览 3提问于2022-05-16得票数 1

回答已采纳

1回答

Dask groupby apply运行速度和Pandas一样慢

、、

我希望通过在6核macbook pro上使用Dask dataframe而不是Pandas来提高性能。然而，Dask的执行速度与Pandas数据帧一样慢，大约需要5分钟。ddf = ddf.set_index(ddf.index, sorted = True) paired = ddf.

浏览 1提问于2019-07-12得票数 0

1回答

在pandas系列中如何用Nan替换非字符串值？

、、

我试过用pandas.Series.apply函数来做这件事，但它认为在大数据量的情况下速度很慢。有没有更快的方法来替换值？这是我尝试过的，但在大系列(例如百万个项目)上速度很慢。s = pd.Series([1, 2, 3, 'str1', 'str2', 3]) s.apply(lambda x: x if type(x) == str else np.nan)

浏览 9提问于2021-01-28得票数 1

回答已采纳

0回答

如何提高pandas dataframe.apply()处理大数据的速度

、、、

= 0:else:merged_df['Decision'] = merged_df.apply(func, axis=1)我猜pandas.apply()比迭代for循环要花更多的时间。我的数据框有两列，名为GT_x、GT_y和，它有"AA“或"BB”

浏览 18提问于2017-06-13得票数 2

3回答

将熊猫的一个int转换为多个bool列

、、、

背景我希望这些特性在我的数据框架中被命名为列。我现在的解决方案在记忆中爆炸，而且速度非常慢。如何提高记忆效率？import pandas as pddf['some_int'].astype(int).apply(bin).str

浏览 0提问于2017-05-02得票数 3

回答已采纳

1回答

加快熊猫滚动窗口的速度

、、、、

我想要加速我的代码，我使用pandas.rolling().apply()的自定义函数。下面的代码运行得很好，但速度非常慢。有没有什么方法可以在应用百万行的时候加速。i in [12, 9, 6, 3]: df[f'want_col_{i}'] = df.groupby(['account'])['types'].rolling(window = i).apply(lambda x: sum(x ==

浏览 20提问于2020-12-20得票数 2

回答已采纳

1回答

不适用于从日期时间序列中提取日期和月份

、、

我有下面的Series，并希望提取datetime的日期。import pandas as pd 到目前为止，我能想到的唯一解决方案是使用apply方法：但是，我注意到对于大型pandas dataframe，apply方法并不是非常快。在前面的代

浏览 3提问于2017-05-11得票数 1

回答已采纳

1回答

熊猫细胞价值分配的最快方法

、、

我有一个名为calculate_distance的函数，它以4个Pandas单元为输入，并返回一个新值，我希望将它分配给特定的Pandas单元。如下面的代码所示，这4个输入值动态变化。.iloc[i-1], df['longitude'].iloc[i-1], df['latitude'].iloc[i], df['longitude'].iloc[i]) 有比这个“新手”循环更快的方法吗

浏览 0提问于2018-09-20得票数 2

回答已采纳

1回答

Pandas系列来自If-Then-Else语句

、

使用if-then-else语句(或类似语句)生成Pandas系列的最常用方法是什么？，但如果name值是“特殊的”，则希望返回一个特殊的新标签。我能够使用df.apply来处理事情： lam

浏览 4提问于2017-07-11得票数 2

回答已采纳

2回答

每个php都需要一个单独的请求吗？

、

我正在努力减少我网站上的请求数量(以提高页面速度)。在一个文件中，我有10个单独php请求语句调用10个不同的php文件。如果有人能澄清这张表格，我将不胜感激。请注意，我不是一个有经验的程序员<e

浏览 1提问于2014-03-26得票数 0

3回答

使用数据帧中的np.array索引值更快地设置新DF值

、

我需要根据NumPy数组索引设置新pandas df列的值，该数组索引也存储在df中。这是可行的，但对于较大的df，它的运行速度相当慢。有什么关于如何提高速度的建议吗？np.random.random((5,5))df['ij']=d

浏览 1提问于2021-07-14得票数 1

1回答

如何在select查询中使用udf进行优化

在视图中，我们编写了5个UDF函数，我用它们来根据select查询中的条件查找数据和返回值。eng_kpi.udf_ProjectX_Get_Prerequisite_ECRs(EC_Number),'') as [Prerequisite ECRs] 如果我在不使用udf函数的情况下运行

浏览 1提问于2015-06-24得票数 0

1回答

Python函数无法删除系列中的子字符串

、、

我试图用替换和剥离函数删除括号内的子字符串。parenthesis = '\((.*?)str.replace(parenthesis, '') 然后我尝试了lambda函数，希望能提高速度df['first name']= df['first na

浏览 1提问于2020-12-13得票数 0

回答已采纳

4回答

将嵌套的if语句替换为AND

、

我想知道嵌套的if是否比AND语句更好。我有一个循环，循环运行了很多次，所以我在考虑更快的执行速度。下面是与我的代码具有相同逻辑的代码。嵌套的if语句在循环中。{ { } } 如果我用this And语句替换嵌套的if语

浏览 1提问于2012-07-06得票数 5

回答已采纳

2回答

关于PDO和准备好的陈述的几个问题

、、

我开始在我的应用程序中使用PDO和准备好的语句，但是我有一些问题要问专业人士。希望你能帮我！) 我什么时候应该使用准备好的语句？在我的整个application?Can中，我使用准备好的语句和INSERT的？，我可以使用插入中有可变列的准备语句吗？(使用SELECT或INSERT)，准备语句的速度</e

浏览 0提问于2011-02-16得票数 2

1回答

如何加速pandas在numba引擎中应用lambda函数

、、、、

在pandas加速的情况下，我了解了numba引擎，可以显着提高速度。在最新的例子中，我喜欢使用argsort和lambda来获得任意的索引，但它似乎相当慢。为什么lambda会使代码变慢？我怎么才能写出合适的应用函数而不影响速度呢?我甚至在nb.njit中包装了lambda函数，但仍然看不到更多的加速。从逻辑上讲，np.argmax和np.argsort -1是相同的，但np.

浏览 82提问于2021-08-14得票数 0

回答已采纳

1回答

如何高效地遍历此数据帧并使用内置的numpy或pandas执行函数？

、、、、

我之前读过this的文章，注意到pandas应用函数，iterrows和for循环是非常慢和高效的处理pandas数据帧的方式。我正在对一些文本数据进行情感分析，但使用apply会导致高内存使用率和低速度，类似于this answer中所示。%%time data.merge(data.essay.apply(lambda s: pd.Series({'neg':sid.pola

浏览 9提问于2020-01-07得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Pandas DataFrame的条件级联

如何用一个函数替换字符串数据帧中的多个字符

使用基于条件的if语句填充熊猫数据帧中缺少的值

Dask groupby apply运行速度和Pandas一样慢

在pandas系列中如何用Nan替换非字符串值？

如何提高pandas dataframe.apply()处理大数据的速度

将熊猫的一个int转换为多个bool列

加快熊猫滚动窗口的速度

不适用于从日期时间序列中提取日期和月份

熊猫细胞价值分配的最快方法

Pandas系列来自If-Then-Else语句

每个php都需要一个单独的请求吗？

使用数据帧中的np.array索引值更快地设置新DF值

如何在select查询中使用udf进行优化

Python函数无法删除系列中的子字符串

将嵌套的if语句替换为AND

关于PDO和准备好的陈述的几个问题

如何加速pandas在numba引擎中应用lambda函数

如何高效地遍历此数据帧并使用内置的numpy或pandas执行函数？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐