开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

如何重写此pd.cut调用以使用df.loc并避免SettingWithCopyWarning？

要重写此pd.cut调用以使用df.loc并避免SettingWithCopyWarning，可以按照以下步骤进行操作：

首先，了解pd.cut的作用和用法。pd.cut是pandas库中的一个函数，用于将连续变量划分为离散的区间。它接受一个Series对象作为输入，并根据指定的区间将其划分为不同的类别。
理解SettingWithCopyWarning的含义。SettingWithCopyWarning是pandas库中的一个警告信息，当对DataFrame进行切片操作时可能会出现。这个警告的出现是因为对切片对象进行赋值操作时，可能会修改原始数据的副本，而不是原始数据本身。
为了避免SettingWithCopyWarning，可以使用df.loc来替代切片操作。df.loc是pandas库中的一个用于访问和修改DataFrame的方法，它可以直接对原始数据进行操作，而不会创建副本。
重写pd.cut调用时，可以使用df.loc来选择需要划分的列，并将划分结果直接赋值给新的列。例如，假设我们有一个名为df的DataFrame，其中包含一个名为"age"的列，我们想将其划分为不同的年龄段。原始的pd.cut调用可能类似于：df["age_group"] = pd.cut(df["age"], bins=[0, 18, 30, 50, 100])。为了避免SettingWithCopyWarning，可以改为使用df.loc：df.loc[:, "age_group"] = pd.cut(df["age"], bins=[0, 18, 30, 50, 100])。
使用df.loc进行赋值操作时，需要注意使用":"来选择所有行，以确保对整个列进行赋值。这样可以避免只对切片对象进行赋值，从而避免SettingWithCopyWarning的出现。

综上所述，通过使用df.loc来替代切片操作，可以重写pd.cut调用并避免SettingWithCopyWarning。这样可以确保代码的正确性和可靠性。

相关搜索:如何重写此方法以获得精确的xpath或定位器？(避免陈旧元素异常)MySQL -如何重写此代码以与ONLY_FULL_GROUP_BY一起使用如何在scala中重写泛型方法并使用反射调用它 Julia -如何导入包的一部分并使用此包调用？如何在jquery中重写字符串以避免再次访问dom，并使用jquery选择器数据结构初始化c语言树莓派编译c语言出错生命周期作用域c语言数值分析c语言pdf squeue c语言

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Pandas和Numpy的视图和拷贝

还有呢，继续看： >>> df = pd.DataFrame(data=data, index=index) >>> df.loc[mask]["z"] = 0 __main__:1: SettingWithCopyWarning...先简单总结一下，为了避免上面的问题，一定要：避免使用链式下表表达式，比如df["z"][mask] = 0，不管是不是会报异常，都要避免，因为把握不好就容易出问题。...使用单个的下表，比如df.loc[mask, 'z'] = 0，这样不仅意义明确，而且简单可行。当然，对于上面问题的理解，就涉及到下面要说的视图（浅拷贝）和拷贝（深拷贝）问题了。...以上以一维数组为例，说明了切片和通过索引（下标）返回的不同类型对象，前者是试图，后者是拷贝。那么，如果是多维数组会如何？与一维的情况一样。...下面我们就看看如何避免这种现象。

3K2 0

再见 for 循环！pandas 提速 315 倍！

在这个例子中使用.iterrows，我们看看这使用iterrows后效果如何。...二、pandas的apply方法我们可以使用.apply方法而不是.iterrows进一步改进此操作。...在下面代码中，我们将看到如何使用pandas的.isin()方法选择行，然后在矢量化操作中实现新特征的添加。...,'cost_cents'] = df.loc[off_peak_hours, 'energy_kwh'] * 12 我们来看一下结果如何。...在上面apply_tariff_isin中，我们通过调用df.loc和df.index.hour.isin三次来进行一些手动调整。如果我们有更精细的时间范围，你可能会说这个解决方案是不可扩展的。

2.8K2 0

还在抱怨pandas运行速度慢？这几个方法会颠覆你的看法

▍Pandas的 .apply()方法我们可以使用.apply方法而不是.iterrows进一步改进此操作。...df.loc[off_peak_hours, 'energy_kwh'] * 12 我们来看一下结果如何。...在apply_tariff_isin中，我们仍然可以通过调用df.loc和df.index.hour.isin三次来进行一些“手动工作”。...▍使用HDFStore防止重新处理现在你已经了解了Pandas中的加速数据流程，接着让我们探讨如何避免与最近集成到Pandas中的HDFStore一起重新处理时间。...请注意这一点，比较不同方法的执行方式，并选择在项目环境中效果最佳的路线。一旦建立了数据清理脚本，就可以通过使用HDFStore存储中间结果来避免重新处理。

3.4K1 0

这几个方法颠覆你对Pandas缓慢的观念！

▍Pandas的 .apply()方法我们可以使用.apply方法而不是.iterrows进一步改进此操作。...df.loc[off_peak_hours, 'energy_kwh'] * 12 我们来看一下结果如何。...在apply_tariff_isin中，我们仍然可以通过调用df.loc和df.index.hour.isin三次来进行一些“手动工作”。...▍使用HDFStore防止重新处理现在你已经了解了Pandas中的加速数据流程，接着让我们探讨如何避免与最近集成到Pandas中的HDFStore一起重新处理时间。...请注意这一点，比较不同方法的执行方式，并选择在项目环境中效果最佳的路线。一旦建立了数据清理脚本，就可以通过使用HDFStore存储中间结果来避免重新处理。

2.9K2 0

数据整合与数据清洗

ix方法可以使用数值或者字符作为索引来选择行、列。 iloc则只能使用数值作为索引来选择行、列。 loc方法在选择列时只能使用字符索引。...这里以性别列为例，将0，1，2替换为未知、男性、女性。...df = df.copy() df.loc[df.gender == 0, 'gender_c'] = '未知' df.loc[df.gender == 1, 'gender_c'] = '男性' df.loc...还可以调用方法isnull产生缺失值指示变量。...# 等宽分箱 print(pd.cut(df.age, 5)) # 自定义标签 print(pd.cut(df.age, bins=5, labels=[10, 15, 20, 25, 30])) 这里以年龄为例

4.6K3 0

学习用Pandas处理分类数据！

（d）利用cut函数创建，默认使用区间类型为标签 pd.cut(np.random.randint(0,60,5), [0,10,30,60]) ?...从上面可以看出，使用cut函数创建的分类变量默认为有序分类变量。下面介绍如何获取或修改这些属性。...新类别将是合并的类别的并集。...如何避免？...练习【练习一】现继续使用第四章中的地震数据集，请解决以下问题：（a）现在将深度分为七个等级：[0,5,10,15,20,30,50,np.inf]，请以深度等级Ⅰ,Ⅱ,Ⅲ,Ⅳ,Ⅴ,Ⅵ,Ⅶ为索引并按照由浅到深的顺序进行排序

1.8K2 0

Pandas 对数值进行分箱操作的4种方法总结对比

注意看下面的不同的参数表示是否包含边界 df.loc[df['score'].between(0, 50, 'both'), 'grade'] = 'C' df.loc[df['score'].between...： df.grade.value_counts() 此方法需要为每个 bin 编写处理的代码，因此它仅适用于 bin 很少的情况。...2、cut 可以使用 cut将值分类为离散的间隔。此函数对于从连续变量到分类变量[2] 也很有用。 cut的参数如下： x：要分箱的数组。必须是一维的。...将 sort 设置为 False 以按其索引的升序对系列进行排序。 series 索引是指每个 bin 的区间范围，其中方括号 [ 和圆括号 ) 分别表示边界值是包含的和不包含的。...总结在本文中，介绍了如何使用 .between、.cut、.qcut 和 .value_counts 对连续值进行分箱。

2.7K3 0

Pandas 2.2 中文官方教程和指南（十一·二）

更多信息请参见通过可调用对象进行选择。注意在应用可调用对象之前，将元组键解构为行（和列）索引，因此无法从可调用对象中返回元组以索引行和列。...因此，SettingWithCopyWarning将不再必要。查看此部分以获取更多背景信息。...要了解这一点，请考虑 Python 解释器如何执行此代码： dfmi.loc[:, ('one', 'second')] = value # becomes dfmi.loc....因此，SettingWithCopyWarning 将不再必要。查看此部分以获取更多上下文。...要看到这一点，想象一下 Python 解释器如何执行此代码： dfmi.loc[:, ('one', 'second')] = value # becomes dfmi.loc.

1751 0

Pandas 对数值进行分箱操作的 4 种方法

注意看下面的不同的参数表示是否包含边界 df.loc[df['score'].between(0, 50, 'both'), 'grade'] = 'C' df.loc[df['score'].between...2、cut 可以使用 cut将值分类为离散的间隔。此函数对于从连续变量到分类变量也很有用。 cut的参数如下： x：要分箱的数组。必须是一维的。...bins = [0, 50, 80, 100] labels = ['C', 'B', 'A'] df['grade'] = pd.cut(x = df['score'],...将 sort 设置为 False 以按其索引的升序对系列进行排序。...总结在本文中，介绍了如何使用 .between、.cut、.qcut 和 .value_counts 对连续值进行分箱。

1.2K2 0

数据科学|Pandas 对数值进行分箱操作的 4 种方法

注意看下面的不同的参数表示是否包含边界 df.loc[df['score'].between(0, 50, 'both'), 'grade'] = 'C' df.loc[df['score'].between...2、cut 可以使用 cut将值分类为离散的间隔。此函数对于从连续变量到分类变量也很有用。 cut的参数如下： x：要分箱的数组。必须是一维的。...bins = [0, 50, 80, 100] labels = ['C', 'B', 'A'] df['grade'] = pd.cut(x = df['score'],...将 sort 设置为 False 以按其索引的升序对系列进行排序。...总结在本文中，介绍了如何使用 .between、.cut、.qcut 和 .value_counts 对连续值进行分箱。

1.8K2 0

Pandas 对数值进行分箱操作的4种方法总结对比

注意看下面的不同的参数表示是否包含边界 df.loc[df['score'].between(0, 50, 'both'), 'grade'] = 'C'df.loc[df['score'].between...2、cut 可以使用 cut将值分类为离散的间隔。此函数对于从连续变量到分类变量[2] 也很有用。 cut的参数如下： x：要分箱的数组。必须是一维的。...bins = [0, 50, 80, 100]labels = ['C', 'B', 'A']df['grade'] = pd.cut(x = df['score'], bins = bins, labels...将 sort 设置为 False 以按其索引的升序对系列进行排序。 series 索引是指每个 bin 的区间范围，其中方括号 [ 和圆括号 ) 分别表示边界值是包含的和不包含的。...总结在本文中，介绍了如何使用 .between、.cut、.qcut 和 .value_counts 对连续值进行分箱。

1K4 0

Pandas切片操作：一个很容易忽视的错误

5 0.5 15 2 4 0.4 14 3 3 0.3 13 4 4 0.4 14 5 5 0.5 15 假设我们要查找与“x”列对应的所有DataFrame元素都大于3，并根据此更改将所有对应的...Try using .loc[row_indexer,col_indexer] = value instead 根据提示信息，我们使用loc方法 df.loc[df['x']>3,'y']=50...反转切片的顺序时，即先调用列，然后再调用我们要满足的条件，便得到了预期的结果： df['y'][df['x']>3]=50 x y w 0 1 0.1 11 1 5 50.0...14 5 5 50.0 15 但是同样会给出一个Warning：A value is trying to be set on a copy of a slice from a DataFrame SettingWithCopyWarning...实际上有两个要点，可以使我们在使用切片和数据操作时免受任何有害影响：避免链接索引，始终选择.loc/ .iloc（或.at/ .iat）方法；使用copy() 创建独立的对象，并保护原始资源免遭不当操纵

2.3K2 0

基于xgboost+GridSearchCV的波士顿房价预测

3.决策树回归模型使用决策树回归模型做回归预测，并使用交叉验证查看模型得分。调用sklearn.tree库的DecisionTreeRegressor方法实例化模型对象。...从官方文档查看cross_val_score方法如何使用的链接：http://sklearn.apachecn.org/cn/0.19.0/modules/generated/sklearn.model_selection.cross_val_score.html...从官方文档查看cross_val_score方法如何使用的链接：http://sklearn.apachecn.org/cn/0.19.0/modules/generated/sklearn.model_selection.cross_val_score.html...官方文档查看GridSearchCV方法如何使用链接：http://sklearn.apachecn.org/cn/0.19.0/modules/generated/sklearn.model_selection.GridSearchCV.html...指标为评估标准的模型最优参数，以及设置此参数的模型mse指标。

3.9K3 0

【Kaggle入门级竞赛top5%排名经验分享】— 建模篇

如何利用我们之前的分析来处理？...因为缺失值也是一种值，这里将Cabin缺失值视为一种特殊的值来处理，并根据Cabin首个字符衍生一个新的特征CabinCat。...代码含义是用“0”替换Cabin缺失值，并将非缺失Cabin特征值提取出第一个值以进行分类，比如A114就是A，C345就是C，如下： [0, C, 0, C, 0, ..., 0, C, 0, 0,...Parch特征进行组合 df["FamilySize"] = df["SibSp"] + df["Parch"] + 1 # 根据FamilySize分布进行分箱 df["FamilySize"] = pd.cut...:") for f in range(len(scores)): print("%0.2f %s" % (scores[indices[f]],features[indices[f]])) 此部分将之前训练和测试合并的数据集分开

5352 0

数据分析索引总结（上）Pandas单级索引

[1102,2304] list的切片方法可以沿用 df.loc[1304:].head() 和list的情形一样, 2402::-1表示从索引标签=2402的元素开始,以步长=1返回list的元素,...df.loc[2402::-1].head() ③ 单列索引使用loc方法获取列, 比直接使用列标签获取列更复杂 df.loc[:,'Height'].head() 等价的更简单的获取列的方法，loc...逗号后的 7::-2 表示从第8列开始,向前每隔一列取一列(步长为2, 2前的负号表示向前迭代) df.iloc[:,7::-2].head() ⑤ 混合索引从第四行开始向后以步长为4选择行, 从第八列开始向前以步长为...利用cut将数值列转为区间为元素的分类变量，例如统计数学成绩的区间情况：使用pd.cut函数进行分割后, 如果没有类型转换，此时并不是区间类型，而是category类型。...math_interval = pd.cut(df['Math'],bins=[0,40,60,80,100]) 默认是左开右闭区间,可以使用right参数指定是左闭右开还是左开右闭。

5.1K4 0

Python一个万万不能忽略的警告！

知道为什么会出现这个警告，并知道怎么解决，或许帮助你真正从pandas的被动使用者，变为一个Pandas专家。...SettingWithCopyWarning 告诉你，你的操作可能没有按预期运行，你应该检查结果以确保没有出错。在采取下一步行动之前，花点时间了解为什么会获得这一警告。...有些开发者非常重视 SettingWithCopy 甚至选择将其提升为异常，这样可以避免某些超出预期的行为出现。...7 总结不幸的是，对于 Pandas 的新手来说，链式索引几乎是不可避免的，因为 get 操作返回的就是可索引的 Pandas 对象。...幸运的是，解决警告只需要识别链式赋值并修复。如果整篇文章你只了解到了一件事，那么就应该是这一点。

1.6K3 0

Pandas 2.2 中文官方教程和指南（十二·二）

222 B1 C1 D0 232 234 D1 236 238 C3 D0 248 250 D1 252 254 [32 rows x 2 columns] 可以同时在多个轴上使用此方法执行相当复杂的选择...这允许任意索引这些，即使值不在类别中，类似于如何重新索引任何 pandas 索引。...首先，我们调用 cut() 与一些数据和 bins 设置为固定数量，以生成区间。...首先，我们使用一些数据和将 bins 设置为一个固定数字来调用 cut()，以生成区间。...首先，我们用一些数据和 bins 设置为一个固定数目来调用 cut()，以生成区间。

5071 0

Python和Plotly实用统计与可视化

每天都使用功能强大的开源Python工具来操作，分析和可视化数据集。这促使写了一个主题的帖子。将使用一个数据集来审查尽可能多的统计概念。数据数据是可在此处找到的房价数据集。...分层从数据集中获取更多信息的另一种方法是将其划分为更小，更均匀的子集，并自己分析这些“层”中的每一个。...df['HouseAge'] = 2019 - df['YearBuilt'] df["AgeGrp"] = pd.cut(df.HouseAge, [9, 20, 40, 60, 80, 100, 147...还可以通过House年龄和空调共同分层，探索建筑类型如何同时受这两个因素的影响。...混合的分类和定量数据为了获得更好的体验，将绘制一个小提琴图，以显示SalePrice在每个建筑类型类别中的分布情况。

2.1K3 0

再见了！Pandas！！

选择行 df.loc[index] 使用方式：通过索引标签选择DataFrame中的一行。示例：选择索引为2的行。 df.loc[2] 9....df.loc[1, 'Name'] 10. 条件选择（Filtering） df[df['ColumnName'] > value] 使用方式：使用条件过滤选择满足特定条件的行。...时间序列重采样 df.resample('D').sum() 使用方式：对时间序列数据进行重新采样。示例：将数据按天重新采样并求和。 df.resample('D').sum() 27....使用cut函数进行分箱处理 df['AgeGroup'] = pd.cut(df['Age'], bins=[20, 30, 40, 50], labels=['20-30', '30-40', '40...示例：使用pipe调用多个自定义函数。 df.pipe(func1).pipe(func2, arg1='value').pipe(func3) 好了，这就是今天分享的全部内容。

1471 0

基于客户数据的银行信用卡风险控制模型研究-金融风控模型标准评分卡

一、知识准备 1.1 熟悉Python的数据分析库numpy、pandas和scikit算法库 1. 2 熟悉逻辑回归和随机森林算法二、项目主题在银行借贷场景中，评分卡是一种以分数形式来衡量一个客户的信用风险大小的手段...，它衡量向别人借钱的人（受信人，需要融资的公司）不能如期履行合同中的还本付息责任，并让借钱给别人的人（授信人，银行等金融机构），造成经济损失的可能性。...对于企业来说，我们按照融资主体的融资用途，分别使用企业融资模型，现金流融资模型，项目融资模型等模型。而对于个人来说，我们有”四张卡“来评判个人的信用程度：A卡，B卡，C卡和F卡。...三、项目目标能够使用RF算法对缺失值进行补充能够掌握样本不平衡问题熟练掌握评分卡的分箱操作四、知识要点...[:, to_fill] df = pd.concat([df.loc[:, df.columns !

1.2K3 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭