如何有效地将函数应用于大型pandas系列？

、、

我有一系列以unix时间为起始日期的pandas时间样本。每个时间样本是x*1/ 512，所以时间戳0= 0，时间戳2=1/ 512或0.00195，时间戳3=2/ 512或0.0039。

浏览 18提问于2019-10-03得票数 0

回答已采纳

2回答

熊猫在str系列中计数频率

、、、

给定类型为str的Pandas系列，我希望得到由str.split返回的结果的频率。例如，给定系列我想要def: 1结果。我怎么能拿到这个？编辑：解决方案应该有效地处理5000万行的大型系列。

浏览 0提问于2016-05-02得票数 2

回答已采纳

1回答

使用apply将系列存储到pandas DataFrame单元格中

、、

我有一个返回序列的函数。我使用apply()将函数应用于dataframe，并希望将结果系列存储到数据帧的新列中。'> 2 | 3 | <class 'pandas.core.series.Series'> 但是，似乎pandas想要扩展该系列并将

浏览 2提问于2018-11-30得票数 0

1回答

对已分组的Pandas系列索引执行操作

、

我想根据值对Pandas系列进行分组，然后对该系列的索引执行聚合操作。熊猫没有认出我经过ser.index。Value': ['a', 'a', 'b', 'c', 'c', 'c']}, index=dti)如果您提议的解决方案是将这个系列转换成一个DF，那么请注意，在我的实际用

浏览 2提问于2021-05-13得票数 0

回答已采纳

2回答

熊猫的UDF功能需要非常长的时间才能完成大数据

、、、

我是PySpark和Pandas的新手，我运行以下Pandas函数来混淆包含字符串的列(例如:输入'Luke‘将导致'ulek')def jumble_stringrandom.sample(x, len(x))).lower()) 在

浏览 1提问于2021-08-30得票数 1

回答已采纳

1回答

Pyspark管道在pandas数据帧上的应用

、、、

我有一个pyspark管道(包含估算和一个机器学习模型)和一个pandas数据帧。我是否可以在不将其转换为Pyspark dataframe的情况下将管道应用于此pandas数据帧？如果不可能，我如何有效地使用pyspark管道来生成对pandas数据帧的预测？

浏览 3提问于2021-09-13得票数 1

1回答

访问传递给apply()的自定义函数中先前计算的结果

、、

我正在使用Python中的Pandas，在将自定义函数应用于一个系列时，我希望访问前面的计算结果。大致如下： previous_result = value print(series.ap

浏览 4提问于2017-01-21得票数 3

回答已采纳

1回答

如何有效地将pandas.Timestamp函数应用于完整的数据/列？

、、、

许多功能已经简化，以便有效地应用于列，而不是单个单元格/行。其中一个函数是to_datetime()函数，我在后面的问题中使用它作为示例。我感兴趣的特定函数是函数，但在pandas.Timestamp类(可能还有其他熊猫类)中有大量符合这种描述的函数，而且文档很少。是否有一种有效地将这些函数广播到一整列数据中的方法?如果是的话，我将如何做到？注意:我知道我可以使用app

浏览 3提问于2020-12-17得票数 2

回答已采纳

1回答

正在提取pandas* timedelta实例属性，天*

、、、、

我有一个由pandas timedelta组成的pandas Series，ages。现在，如果我编写以下代码：age[0].days，它会像这样打印：218我写了这段代码来做这件事，但是运行它会输出错误。range(len(age)):输出：我查找了错误，它提到了我使用lists...what的错误含义，以及如何将</em

浏览 0提问于2018-05-22得票数 1

1回答

pandas_udf给出了与pyarrow相关的错误

、、、、

.|2020-03-03| 我正在使用pandas_udf，并且apache箭头已启用。from pyspark.sql.functions import col, pandas_udfspark.conf.set("spark.sql.execution.arrow.pyspark.fallback.enabled", "true") lat_long_udf = <

浏览 30提问于2020-08-31得票数 0

回答已采纳

1回答

用用户提供的列表从熊猫df中删除停止词组

、、、、

我有一个raw_corpus，正在尝试用用户定义的stoplist删除秒词(我编辑了nltk英语秒表文件)。我的塞字文件一定有问题吧？这是我的密码：stoplist="/User/dlhoffman/nltk_data/corpora/stopwords/english"raw_corpus['constructed_recipe'] = raw_corpus['constructed_rec

浏览 2提问于2018-01-24得票数 0

回答已采纳

1回答

通过在所有相邻值上运行一个函数来制作一个熊猫系列

、、

我有一个熊猫系列，s1，我想要制作一个新的系列，s2，通过应用一个函数，它需要两个输入来创造一个新的价值。此函数将应用于s1上的2值窗口.由此产生的系列s2应该比s1少一个值。我的系列包括以弦乐表示的音高。import pandas我想使用这个<

浏览 2提问于2016-04-14得票数 0

回答已采纳

3回答

`json.loads()`和`.apply(json.loads)`有什么区别？

、

我对编码非常陌生，现在我正在尝试处理来自kaggle的TMDB_5000数据集。[{"cast_id": 242, "character": "Jake Sully", "credit_id": "5602a8a7c3a3685532001c9a", "gender": 2, "id": 65731, "name": "Sam Worthington", "order": 0},

浏览 0提问于2018-11-11得票数 0

回答已采纳

1回答

给给定数组设置一个系列

、、、、

如何有效地将熊猫系列(或索引级别)降至给定数组(系列，索引)，即将该系列中的每个元素x映射到地板数组中的最大元素y，从而使y <= ximport pandas as pd # the

浏览 1提问于2020-02-20得票数 1

回答已采纳

2回答

如何在python中保存大的数组，使其占用更少的内存？

、

我是python的新手。我有一个很大的数组a，它的维数是(43200, 4000)，我需要保存它，因为我需要它用于将来的处理。当我尝试用np.savetxt保存它时，txt文件太大，我的程序运行到内存错误，因为我需要处理5个相同大小的文件。有没有办法节省大量的数组，使其占用更少的内存？

浏览 4提问于2013-09-11得票数 10

回答已采纳

1回答

错误'Series‘对象不能解释为整数，我不知道我该怎么做

我的代码： datos=pd.read_csv('/Users/rafaelsuarez/Documents/Data/UCELL.csv', sep=','

浏览 0提问于2021-10-19得票数 0

1回答

函数在大熊猫效率独特价值中的应用

这是一个关于如何在熊猫中有效地应用函数的一般性问题。我经常遇到需要将函数应用于pd.Series的情况，而且只将该函数应用于唯一值会更快。mf['qtr'] = pd.Index(mf['date']) + pd.offsets.QuarterEnd(0) 但对于大型数据集，这可能需要一段时间。因此，为了加快速度，我将提取date的唯一值，<em

浏览 2提问于2015-07-09得票数 5

1回答

如何改变ASCII标志的特殊标志？

、

你知道如何将“łźą”这样的特殊标志换成“lza”的ASCII标志吗？我试着使用unidecode，就像互联网建议的那样。import pandas as pd history = pd.read_csv('history.csv', encoding='unicode_escape

浏览 6提问于2022-08-22得票数 0

1回答

用乘数法计算分组滚动累积和

、

我想计算一列乘以Pandas DataFrame中的常数后的滚动累积和。例如，鉴于该系列：000012.25该系列需要对一个组进行计算，例如： pd.DataFrame该系列将只包含0或1作为值，而1将只在本系列中出现一次。因此，任何计算在之前的级数1之和都是1。

浏览 5提问于2020-04-23得票数 0

回答已采纳

2回答

如何将混合字节/字符串的pandas.Series转换/解码为字符串或utf-8

、、、

我想在两个可能的情况下解决这个问题：目前用于：b.str.decode('utf-8') 给出字符串已经在UTF-8中的NaNs。或者他们是自动ASCII？我可以在error中给出decode参数，以便字符串保持“未解码”状态，

浏览 0提问于2019-08-05得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

熊猫在str系列中计数频率

使用apply将系列存储到pandas DataFrame单元格中

对已分组的Pandas系列索引执行操作

熊猫的UDF功能需要非常长的时间才能完成大数据

Pyspark管道在pandas数据帧上的应用

访问传递给apply()的自定义函数中先前计算的结果

如何有效地将pandas.Timestamp函数应用于完整的数据/列？

正在提取pandas* timedelta实例属性，天*

pandas_udf给出了与pyarrow相关的错误

用用户提供的列表从熊猫df中删除停止词组

通过在所有相邻值上运行一个函数来制作一个熊猫系列

`json.loads()`和`.apply(json.loads)`有什么区别？

给给定数组设置一个系列

如何在python中保存大的数组，使其占用更少的内存？

错误'Series‘对象不能解释为整数，我不知道我该怎么做

函数在大熊猫效率独特价值中的应用

如何改变ASCII标志的特殊标志？

用乘数法计算分组滚动累积和

如何将混合字节/字符串的pandas.Series转换/解码为字符串或utf-8

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐