Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >python 数据分析基础 day17-对自变量进行标准化

python 数据分析基础 day17-对自变量进行标准化

作者头像
billyang916
修改于 2019-02-04 09:09:16
修改于 2019-02-04 09:09:16
2.8K20
代码可运行
举报
文章被收录于专栏:python读书笔记python读书笔记
运行总次数:0
代码可运行

今天是读《python数据分析基础》的第17天,读书笔记的内容为变量的标准化。 在进行 在建模的时候,会遇到不同的自变量之间的量纲差距很大的情况,如输入变量有年龄和身高(身高以m为单位)时,年龄的范围为(0-100],而身高的范围则是(0,2.5]。此时两个变量之间的取值范围差了一个数量级。若采用这两个变量进行建模,则有可能出现这样的情况:年龄对预测值的影响远高于身高。这意味着年龄的影响程度被高估,身高的影响程度被低估。 为使得变量的影响程度能被正确估计,提高模型的预测精度,对自变量进行标准化是一个有效且可行的方式。 以下将用python演示对自变量进行标准化的操作:

注:数据来源于https://github.com/cbrownley/foundations-for-analytics-with-python/tree/master/statistics/winequality-both.csv

min-max标准化(又名离差标准化)

公式如下: x*=(x-min)/(max-min) 代码如下:

代码语言:markdown
AI代码解释
复制
import pandas as pd

#导入数据
inputFile='数据文件路径'
wine=pd.read_csv(inputFile)

#将'tpye'和'quality'字段以外的字段进行标准化
#去除'tupe'和'quality'字段
wineInd=wine[wine.columns.difference(['type','quality'])]

#min-max标准化

wineIndZScore=(wineInd-wineInd.min())/(wineInd.max()-wineInd.min())
print(wineIndMinMax.head(5))

z-score 标准化(又名标准差标准化)

公式如下: x*=(x-mean)/std 其中,mean按为样本均值,std为样本标准差 代码如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#自变量标准化

import pandas as pd

#导入数据
inputFile=‘数据文件路径’
wine=pd.read_csv(inputFile)

#将'tpye''quality'字段以外的字段进行标准化
#去除'tupe''quality'字段
wineInd=wine[wine.columns.difference(['type','quality'])]

#z-score标准化
wineIndMinMax=(wineInd-wineInd.mean())/wineInd.std()
print(wineIndZScore.head(5))
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018.03.30 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
2 条评论
热度
最新
min-max标准化 和 z-score标准化的代码写反了
min-max标准化 和 z-score标准化的代码写反了
11点赞举报
已经修改了
已经修改了
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
python 数据分析基础 day16-使用statasmodels进行线性回归
今天是读《python数据分析基础》的第16天,今天的读书笔记内容为使用statsmodels模块对数据进行最小二乘线性回归。 代码如下(详细内容请见代码备注): 注: 1.数据来源于 https://github.com/cbrownley/foundations-for-analytics-with-python/tree/master/statistics/winequality-both.csv 2.运用statsmodels模块进行最小二乘回归可参考此内容http://www.stats
billyang916
2018/05/02
1.8K0
Python数据分析实验三:基于Scikit-Learn构建数据分析模型
文章相关资源可参考我的GitCode仓库:https://gitcode.com/Morse_Chen/Python_data_analysis
Francek Chen
2025/01/22
2540
Python数据分析实验三:基于Scikit-Learn构建数据分析模型
【机器学习基础】Python数据预处理:彻底理解标准化和归一化
数据中不同特征的量纲可能不一致,数值间的差别可能很大,不进行处理可能会影响到数据分析的结果,因此,需要对数据按照一定比例进行缩放,使之落在一个特定的区域,便于进行综合分析。
黄博的机器学习圈子
2020/07/23
4K0
独家 | 数据转换:标准化vs 归一化(附代码&链接)
本文将解释数据转换中常见的特征缩放方法:“标准化”和“归一化”的不同之处,并举例说明何时使用,以及如何使用它们。
数据派THU
2020/05/26
1.3K0
归一化与标准化
X = x − m i n m a x − m i n X = \frac{x-min}{max-min } X=max−minx−min​
白墨石
2021/09/10
8240
数分人必知必会 | 分析方法:数据标准化
数据标准化绝非可有可无的步骤,其必要性根植于数据本身的特性和机器学习算法的内在运作机制。理解以下核心原因,能让我们在数据处理时更具主动性和判断力:
做数据的二号姬
2025/07/24
1930
数分人必知必会 | 分析方法:数据标准化
深度学习基础入门篇[七]:常用归一化算法、层次归一化算法、归一化和标准化区别于联系、应用案例场景分析。
那么什么是量纲,又为什么需要将有量纲转化为无量纲呢?具体举一个例子。当我们在做对房价的预测时,收集到的数据中,如房屋的面积、房间的数量、到地铁站的距离、住宅附近的空气质量等,都是量纲,而他们对应的量纲单位分别为平方米、个数、米、AQI等。这些量纲单位的不同,导致数据之间不具有可比性。同时,对于不同的量纲,数据的数量级大小也是不同的,比如房屋到地铁站的距离可以是上千米,而房屋的房间数量一般只有几个。经过归一化处理后,不仅可以消除量纲的影响,也可将各数据归一化至同一量级,从而解决数据间的可比性问题。
汀丶人工智能
2023/04/22
2.4K0
深度学习基础入门篇[七]:常用归一化算法、层次归一化算法、归一化和标准化区别于联系、应用案例场景分析。
特征工程-数据归一化和标准化
数据的归一化和标准化都是对数据做变换,指通过某种处理方法将待处理的数据限制在一定的范围内或者符合某种分布。
皮大大
2023/08/25
4460
机器学习特征数据预处理
关于特征值离散化的相关内容下面直接进行举例,主要是标签处理、特征处理和OneHot。
润森
2022/08/18
1.1K0
机器学习特征数据预处理
案例实操 | 利用Lambda函数来进行特征工程,超方便的!!
特征工程对于我们在机器学习的建模当中扮演着至关重要的角色,要是这一环节做得好,模型的准确率以及性能就被大大地被提升,今天小编就通过Python当中的lambda函数来对数据集进行一次特征工程的操作,生成一些有用的有价值的特征出来。
用户6888863
2023/03/01
3290
案例实操 | 利用Lambda函数来进行特征工程,超方便的!!
python 数据分析基础 day19-使用statsmodels进行逻辑回归
今天是读《python数据分析基础》的第19天,读书笔记内容为使用statsmodels进行逻辑回归。 以下代码将按数据清洗、训练模型、得出测试集的预测值这三个步骤展示 逻辑回归模型的使用。 注: 1.数据来源于https://github.com/cbrownley/foundations-for-analytics-with-python/tree/master/statistics/churn.csv 2.使用statsmodels构建逻辑回归模型之前,需要手动为自变量添加常数项 #使用
billyang916
2018/05/02
5.1K0
数据预处理的一些知识「建议收藏」
做研究时只要与数据分析相关就避免不了数据预处理。我们常见的预处理包括:标准化(规范化),归一化,零均值(化),白化,正则化……这些预处理的目的是什么呢?网上查的总是零零散散,很难搞清楚。因此我用此片博客来总结下。借鉴其他博客的内容,可能未一一注明还请谅解。
全栈程序员站长
2022/11/16
4580
数值数据的特征预处理|ML基础
特征预处理是数据挖掘中最重要的步骤。在这篇文章中,我将向你介绍特征预处理的概念,它的重要性,不同的机器学习模型下的数值特征的不同特征预处理技术。
磐创AI
2019/10/14
9550
数值数据的特征预处理|ML基础
机器学习笔记之数据缩放 标准化和归一化
使用单一指标对某事物进行评价并不合理,因此需要多指标综合评价方法。多指标综合评价方法,就是把描述某事物不同方面的多个指标综合起来得到一个综合指标,并通过它评价、比较该事物。由于性质不同,不同评价指标通常具有不同的量纲和数量级。当各指标相差很大时,如果直接使用原始指标值计算综合指标,就会突出数值较大的指标在分析中的作用、削弱数值较小的指标在分析中的作用。为消除各评价指标间量纲和数量级的差异、保证结果的可靠性,就需要对各指标的原始数据进行特征缩放。
Jetpropelledsnake21
2021/03/03
2.8K0
Python 数据分析与可视化:开启数据洞察之旅(5/10)
在当今数字化时代,数据就像一座蕴藏无限价值的宝藏,等待着我们去挖掘和探索。而 Python,作为数据科学领域的明星语言,凭借其丰富的库和强大的功能,成为了开启这座宝藏的关键钥匙,在数据分析和可视化领域占据着举足轻重的地位。
正在走向自律
2025/05/10
8890
Python 数据分析与可视化:开启数据洞察之旅(5/10)
工业数据分析之数据归一化 | 冰水数据智能专题 | 2nd
归一化就是要把需要处理的数据经过处理后(通过某种算法)限制在你需要的一定范围内。首先归一化是为了后面数据处理的方便,其次是保证程序运行时收敛加快。归一化的具体作用是归纳统一样本的统计分布性。归一化在0-1之间是统计的概率分布,归一化在某个区间上是统计的坐标分布。归一化有同一、统一和合一的意思。
用户7623498
2020/08/04
7890
工业数据分析之数据归一化 | 冰水数据智能专题 | 2nd
图解数据分析 | 数据清洗与预处理
教程地址:http://www.showmeai.tech/tutorials/33
ShowMeAI
2022/02/25
1.3K0
图解数据分析 | 数据清洗与预处理
python 数据标准化常用方法,z-score\min-max标准化
在数据分析之前,我们通常需要先将数据标准化(normalization),利用标准化后的数据进行数据分析。数据标准化也就是统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,再加总才能得出正确结果。数据无量纲化处理主要解决数据的可比性。数据标准化的方法有很多种,常用的有"最小-最大标准化"、"Z-score标准化"和"按小数定标标准化"等。经过上述标准化处理,原始数据均转换为无量纲化指标测评值,即各指标值都处于同一个数量级别上,可以进行综合测评分析。
学到老
2019/01/25
17.3K0
R + python︱数据规范化、归一化、Z-Score
版权声明:博主原创文章,微信公众号:素质云笔记,转载请注明来源“素质云博客”,谢谢合作!! https://blog.csdn.net/sinat_26917383/article/details/51228217
悟乙己
2019/05/26
4.5K0
归一化还是标准化?如何为你的数据选择最佳缩放方法
想象一下,如果你在篮球队里同时安排了姚明(2.29米)和"小土豆"姜山(1.65米)一起打球,结果会怎样?显然,姚明会"主宰"比赛节奏。机器学习算法中的特征也是如此,不同量级的特征若不加处理,"身高优势"明显的特征就会霸占算法的"注意力"。
martinzh7
2025/06/03
2470
归一化还是标准化?如何为你的数据选择最佳缩放方法
推荐阅读
相关推荐
python 数据分析基础 day16-使用statasmodels进行线性回归
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验