前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >品玩SAS:判别分析——人类发展指数之路

品玩SAS:判别分析——人类发展指数之路

作者头像
机器思维研究院
发布于 2019-06-10 07:26:20
发布于 2019-06-10 07:26:20
9720
举报
文章被收录于专栏:AI机器思维AI机器思维

都说身体是革命的本钱,奈何最近时日革命之斗志日渐萎靡,倒不是说思想滑坡掉进了用进废退的陷阱,只是“革命的本钱”透支严重,不信你看这被塞满的地漏上全是我逝去的头发!正当惊觉不妙的我在电脑前检索“脱发”时,一条脱发等级刺痛了我的双眼。看吧,不仅知道你脱发,而且还贴心的告诉你是否站上了脱发界金字塔的顶端!要是划分依据在清晰一些,那真是满足了脱发界的重度焦虑患者。像脱发这样的具体分类等级,正是我们根据一些分类标准或过去的经验对评判事物贵贱、好坏、美丑的评判,应用到统计领域就是我们在对事物做判别分析。

判别分析是在已知历史上用某些方法将研究对象分成若干类的情况下,确定新的观测样品应归属哪一类的统计分析方法。其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标,据此确定某一样本属于何类。通俗点说就是事物分类的标准已经制定好了,现在只需将新事物对号入座即可。

判别分析常见的方法有距离判别、Fisher判别和Bayes判别等。距离判别法是根据样本和不同总体的距离判定该样品所属的类别;Fisher判别的基本思想是投影,即通过投影使类间的差异最大,以此来对样本进行分类;Bayes判别是以概率为判别准则来分类,即样本属于哪一类的概率最大就分到哪一类。

目前判别分析在经济、医学、天气等领域有着广泛的应用,例如判断国家经济发展程度所属类型,根据不同症状和化验结果等指标来诊断患病类型,根据最近的气象资料来判断未来天气等。

本期“品玩SAS”以判别分析为题,运用距离判别分析法将不同国家根据其人类发展指数进行归类。人类发展指数(HDI——Human Development Index)是由联合国开发计划署(UNDP)在《1990年人文发展报告》中提出的,用以衡量联合国各成员国经济社会发展水平的指标。人类发展指数 (HDI) 是一个整合了人类发展以下三个基本维度的综合指数:以出生时预期寿命来衡量的过上健康长寿生活的能力;以平均受教育年限和预期受教育年限来衡量的获取知识的能力;以人均国民总收入来衡量的过上体面生活的能力。

本文从2017年人类发展指数中,选取极高人类发展水平、高人类发展水平、中等人类发展水平和低人类发展水平国家各5个作为四组样品,另选4个国家进行判别分析。

指标说明

x1:出生时预期寿命

x2:预期受教育年限

x3:平均受教育年限

x4:人均国民总收入

type:发展水平

country:国家

SAS程序

data test;

/*生成对照样本数据集test*/

input type $ country $ x1 x2 x3 x4;

cards;

极高 美国 79.5 16.5 13.4 54941

极高 德国 81.2 17.0 14.1 46136

极高 瑞士 83.5 16.2 13.4 57625

极高 澳大利亚 83.1 22.9 12.9 43560

极高 韩国 82.4 16.5 12.1 35945

高 利比亚 72.1 13.4 7.3 11100

高 古巴 79.9 14.0 11.8 7524

高 泰国 75.5 14.7 7.6 15516

高 巴西 75.7 15.4 7.8 13755

高 汤加 73.2 14.3 11.2 5547

中 埃及 71.7 13.1 7.2 10355

中 越南 76.5 12.7 8.2 5859

中 孟加拉国 72.8 11.4 5.8 3677

中 缅甸 66.7 10.0 4.9 5567

中 肯尼亚 67.3 12.1 6.5 2961

低 津巴布韦 61.7 10.3 8.1 1683

低 苏丹 64.7 7.4 3.7 4119

低 几内亚 60.6 9.1 2.6 2067

低 也门 65.2 9.0 3.0 1239

低 尼日利亚 53.9 10.0 6.2 5231

;

data test1; /*生成待判样品数据集test1*/

input country $ x1 x2 x3 x4;

cards;

中国 76.4 13.8 7.815270

日本 83.9 15.2 12.8 38986

印度 68.8 12.3 6.4 6353

斯里兰卡 75.5 13.9 10.9 11326

;

proc discrim data=test testdata=test1

method=normal

/*假定分类是多元正态分布,采用参数估计法*/

pool=test /*通过假设检验确定协方差矩阵的形式*/

list /*输出原始数据的类别和概率*/

distance/*要求计算类间的平方距离并输出计算结果*/

testout=result;

class type; /*按照type变量分组*/

var x1-x4; /*指定分析变量*/

proc print data=result;

run;

输出结果

图1 汇总信息

上图为距离判别分析的汇总信息,样本数共20个,分为4类,每类5个样本;由于未指定先验概率,四种发展水平的先验概率一样,都是25%。

图2 关键字pool、distance输出信息

到type的平方距离表示不同类间的平方距离,例如,从低到极高的平方距离为468.44133;到type的广义平方距离同理。距离矩阵主要用于生成判别函数和判别规则,也可用于判断类间区分是否明显。

图3 关键字list输出信息

上图为根据判别函数计算的后验概率,以及对原始数据集中观测进行的重新归类。例如,第六条观测在原始数据集中被归类为高,使用判别函数计算出该观测分别有0.7462、0.2538的概率属于高和中,于是根据概率值的大小,系统判定该观测的类别为高。

图4 原始数据判别结果

由原始数据判别结果可以看出,判别系数回代后各类别及合计的错判率为0。

图5 新数据判别结果

将中国、日本、印度和斯里兰卡的出生时预期寿命、预期受教育年限、平均受教育年限、人均国民总收入四项数据带入进行判别分析,得出日本被归为极高人类发展水平国家,中国和斯里兰卡被归为高发展水平国家,印度被归为中等发展水平国家。

就世界这金碧辉煌与破败不堪,如果将地球展开成一张画卷,那不比清明上河图要精彩万倍。

附上部分人类发展指数数据。

感谢《判别分析——人类发展指数之路》原文作者刘璐提供优秀文章,我们会将更多投稿文章定期分享给大家,再次感谢投稿作者的支持!

机器思维公众号已面向公众开放投稿,优秀文稿我们会第一时间分享给大家,欢迎各位参与投稿!

投稿邮箱:aijqsw@163.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-03-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI机器思维 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【数据分析 R语言实现】12.1判别分析及R实现
判别分析是多元统计分析中较为成熟的一种分类方法,根据已知类别的若干样木数据,总结出客观事物分类的规律性,建立由数值指标构成的判别公式和判别准则。当遇到新的样本点时,只要根据总结出来的判别公式和判别准则,就能判别该样木点所属的类别。
统计学家
2019/04/10
3.7K1
R语言数据分析与挖掘(第八章):判别分析(2)——贝叶斯(Bayes)判别分析
Bayes判别,它是基于Bayes准则的判别方法,判别指标为定量资料,它的判别规则和最大似然判别、Bayes公式判别相似,都是根据概率大小进行判别,要求各类近似服从多元正态分布。
DoubleHelix
2019/12/13
7.8K0
判别分析 练习题
计算Fisher线性判别函数。   首先将数据集 、 、 、 、和合并协方差阵 输入:
yiyun
2022/04/01
3.7K0
判别分析 练习题
基于 R语言的判别分析介绍与实践(1)
本期介绍的是 《Machine Learning with R, tidyverse, and mlr》 一书的第五章—— 判别分析(discriminant analysis)。 判别分析是解决分类问题的多种算法的总称,通过将预测变量组合成新的变量来找到预测变量的新表示(必须是连续的),从而最好地区分类。这种思想和一些降维算法有些相似。
庄闪闪
2022/05/24
1.3K0
基于 R语言的判别分析介绍与实践(1)
『统计学』数据分析中最常用的方法都在这了!Part.3
根据已掌握的一批分类明确的样品建立判别函数,使产生错判的事例最少,进而对给定的一个新样品,判断它来自哪个总体。
朱小五
2020/09/24
6450
用线性判别分析 LDA 降维
本文结构: 什么是 LDA 和 PCA 区别 LDA 投影的计算过程 LDA 降维的例子 ---- 1. 什么是 LDA 先说判别分析,Discriminant Analysis 就是根据研究对象的各种特征值,判别其类型归属问题的一种多变量统计分析方法。 根据判别标准不同,可以分为距离判别、Fisher 判别、Bayes 判别法等。例如,在 KNN 中用的是距离判别,朴素贝叶斯分类用的是 Bayes 判别,线性判别分析用的是 Fisher 判别式。 根据判别函数的形式,可以分为线性判别和非线性判别。 线性判
杨熹
2018/04/03
1.3K0
用线性判别分析 LDA 降维
R语言数据分析与挖掘(第八章):判别分析(1)——距离判别法
判别分析是判断个体所属类别的一种多元统计分析方法。它在医学领域有着广泛的应用,主要有疾病诊断、疾病预测和病因学分析。例如,根据病人的症状、生化指标判断病人得的是什么疾病,根据病人症状的严重程度或者指标的高低预测病人的预后等等。比如,高血压、高血糖、动脉硬化程度这些都是脑血管疾病的患病危险因素;那么如果知道了人体的这些指标,并对这些数据进行分析,就可以对尚未明确诊断的人是否发生脑血管疾病进行预测;对于很可能是脑血管疾病的人就可以事先给予预防,或者在入院后尽快得到救治,提高诊疗有效率。
DoubleHelix
2019/12/13
7.3K2
【干货!】统计学最常用的「数据分析方法」清单(下)
根据已掌握的一批分类明确的样品建立判别函数,使产生错判的事例最少,进而对给定的一个新样品,判断它来自哪个总体。
1480
2020/06/01
7960
R语言 判别分析
#判别分析 用以判别个体所属群体的一种统计方法 判别分析重点是两类群体的判别方法 #主要判别分析方法 有距离判别 贝叶斯判别 费歇判别法 1、关键点: #贝叶斯判别 贝叶斯判别式假定对研究对象已有一定的认识 这种认识常用先验概率来描述 #当取得样本后 就可以用样本来修正已经有的先验概率分布 得出后验概率分布 #然后通过后验概率分布 进行各种统计推断 #实际上就是使平均误判损失(误判概率与误判损失的结合)ECM达到极小的过程 2、案例分析 (一)两个总体的贝叶斯判别分析 #1.载入数据 TrnX1<-matr
学到老
2018/03/16
1K0
R语言线性判别分析(LDA),二次判别分析(QDA)和正则判别分析(RDA)
判别分析包括可用于分类和降维的方法。线性判别分析(LDA)特别受欢迎,因为它既是分类器又是降维技术。二次判别分析(QDA)是LDA的变体,允许数据的非线性分离。最后,正则化判别分析(RDA)是LDA和QDA之间的折衷。
拓端
2020/07/17
3.1K0
R语言线性判别分析(LDA),二次判别分析(QDA)和正则判别分析(RDA)
线性判别分析总览
线性判别分析总览(Linear Discriminant Analysis,LDA):用于数据预处理中的降维、分类任务,其目标是找到能够最大化类间区分度的坐标轴成分。用几个词概括LDA的特征,即降维、分类。
王诗翔呀
2020/09/25
8770
线性判别分析总览
R语言数据分析与挖掘(第八章):判别分析(3)——费歇尔(Fisher)判别分析
我们之前介绍了判别分析中,因为判别准则的不同,可分为多种判别分析法。常用的有费歇尔(Fisher)判别分析、贝叶斯(Bayes)判别分析和距离判别分析。在上2篇文章中(判别分析——距离判别法和贝叶斯(Bayes)判别分析)介绍了距离判别分析和贝叶斯判别,本文将介绍贝费歇尔(Fisher)判别分析。
DoubleHelix
2019/12/13
8.7K0
统计学中常用的数据分析方法汇总
描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。
统计学家
2019/08/23
3.5K0
推荐收藏 | 统计学常用的数据分析方法大总结!
描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。
1480
2019/10/10
9640
推荐收藏 | 统计学常用的数据分析方法大总结!
R语言主成分PCA、因子分析、聚类对地区经济研究分析重庆市经济指标|附代码数据
最近我们被客户要求撰写关于地区经济研究分析的研究报告,包括一些图形和统计输出。 建立重庆市经济指标发展体系,以重庆市一小时经济圈作为样本,运用因子分析方法进行实证分析,在借鉴了相关评价理论和评价方法的基础上,本文提取出经济规模、人均发展水平、经济发展潜力、3个主因子,从重庆市统计年鉴选取8个指标构成的指标体系数据对重庆市38个区县经济发展基本情况的八项指标进行分析,并基于主因子得分矩阵对重庆市38个区县进行聚类分析。
拓端
2022/12/12
7270
推荐收藏 | 统计学 常用的数据分析方法大总结!
描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。
Sam Gor
2019/09/09
1.5K0
R语言主成分PCA、因子分析、聚类对地区经济研究分析重庆市经济指标|附代码数据
建立重庆市经济指标发展体系,以重庆市一小时经济圈作为样本,运用因子分析方法进行实证分析,在借鉴了相关评价理论和评价方法的基础上,本文提取出经济规模、人均发展水平、经济发展潜力、3个主因子,从重庆市统计年鉴选取8个指标构成的指标体系数据对重庆市38个区县经济发展基本情况的八项指标进行分析,并基于主因子得分矩阵对重庆市38个区县进行聚类分析 ( 点击文末“阅读原文”获取完整代码数据******** ) 。
拓端
2022/11/14
3030
基于SPSS和ArcGIS的地区社会弱势性空间格局分析
社会弱势性是指个人、家庭或群体因资源缺乏,难以获取充足的食物、良好的住房条件、平等的教育机会、充分的就业机个、适量的社会服务或消费型娱乐活动,从而影响其拥有正常水平的日常生活、消费和娱乐的不平等社会现象。综合中部五省(河南、安徽、湖北、湖南、江西)各地市收入、教育、住房、人口结构等多方面因素、本实验利用主成分分析构建社会弱势性综合评价指数,结合空间自相关分析和聚类分析,研究社会弱势性空间分布格局及分布模式,借助空间回归模型探究社会弱势性与城市化水平间的关系。通过本实验希望达到以下目的:
陈南GISer
2022/01/05
2.9K0
基于SPSS和ArcGIS的地区社会弱势性空间格局分析
R语言多元分析系列
系列之一:主成分分析 主成分分析(principal components analysis, PCA)是一种分析、简化数据集的技术。它把原始数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是在处理观测数目小于变量数目时无法发挥作用,
机器学习AI算法工程
2018/03/12
1.4K0
推荐阅读
相关推荐
【数据分析 R语言实现】12.1判别分析及R实现
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档