都说身体是革命的本钱,奈何最近时日革命之斗志日渐萎靡,倒不是说思想滑坡掉进了用进废退的陷阱,只是“革命的本钱”透支严重,不信你看这被塞满的地漏上全是我逝去的头发!正当惊觉不妙的我在电脑前检索“脱发”时,一条脱发等级刺痛了我的双眼。看吧,不仅知道你脱发,而且还贴心的告诉你是否站上了脱发界金字塔的顶端!要是划分依据在清晰一些,那真是满足了脱发界的重度焦虑患者。像脱发这样的具体分类等级,正是我们根据一些分类标准或过去的经验对评判事物贵贱、好坏、美丑的评判,应用到统计领域就是我们在对事物做判别分析。
判别分析是在已知历史上用某些方法将研究对象分成若干类的情况下,确定新的观测样品应归属哪一类的统计分析方法。其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标,据此确定某一样本属于何类。通俗点说就是事物分类的标准已经制定好了,现在只需将新事物对号入座即可。
判别分析常见的方法有距离判别、Fisher判别和Bayes判别等。距离判别法是根据样本和不同总体的距离判定该样品所属的类别;Fisher判别的基本思想是投影,即通过投影使类间的差异最大,以此来对样本进行分类;Bayes判别是以概率为判别准则来分类,即样本属于哪一类的概率最大就分到哪一类。
目前判别分析在经济、医学、天气等领域有着广泛的应用,例如判断国家经济发展程度所属类型,根据不同症状和化验结果等指标来诊断患病类型,根据最近的气象资料来判断未来天气等。
本期“品玩SAS”以判别分析为题,运用距离判别分析法将不同国家根据其人类发展指数进行归类。人类发展指数(HDI——Human Development Index)是由联合国开发计划署(UNDP)在《1990年人文发展报告》中提出的,用以衡量联合国各成员国经济社会发展水平的指标。人类发展指数 (HDI) 是一个整合了人类发展以下三个基本维度的综合指数:以出生时预期寿命来衡量的过上健康长寿生活的能力;以平均受教育年限和预期受教育年限来衡量的获取知识的能力;以人均国民总收入来衡量的过上体面生活的能力。
本文从2017年人类发展指数中,选取极高人类发展水平、高人类发展水平、中等人类发展水平和低人类发展水平国家各5个作为四组样品,另选4个国家进行判别分析。
指标说明
x1:出生时预期寿命
x2:预期受教育年限
x3:平均受教育年限
x4:人均国民总收入
type:发展水平
country:国家
SAS程序
data test;
/*生成对照样本数据集test*/
input type $ country $ x1 x2 x3 x4;
cards;
极高 美国 79.5 16.5 13.4 54941
极高 德国 81.2 17.0 14.1 46136
极高 瑞士 83.5 16.2 13.4 57625
极高 澳大利亚 83.1 22.9 12.9 43560
极高 韩国 82.4 16.5 12.1 35945
高 利比亚 72.1 13.4 7.3 11100
高 古巴 79.9 14.0 11.8 7524
高 泰国 75.5 14.7 7.6 15516
高 巴西 75.7 15.4 7.8 13755
高 汤加 73.2 14.3 11.2 5547
中 埃及 71.7 13.1 7.2 10355
中 越南 76.5 12.7 8.2 5859
中 孟加拉国 72.8 11.4 5.8 3677
中 缅甸 66.7 10.0 4.9 5567
中 肯尼亚 67.3 12.1 6.5 2961
低 津巴布韦 61.7 10.3 8.1 1683
低 苏丹 64.7 7.4 3.7 4119
低 几内亚 60.6 9.1 2.6 2067
低 也门 65.2 9.0 3.0 1239
低 尼日利亚 53.9 10.0 6.2 5231
;
data test1; /*生成待判样品数据集test1*/
input country $ x1 x2 x3 x4;
cards;
中国 76.4 13.8 7.815270
日本 83.9 15.2 12.8 38986
印度 68.8 12.3 6.4 6353
斯里兰卡 75.5 13.9 10.9 11326
;
proc discrim data=test testdata=test1
method=normal
/*假定分类是多元正态分布,采用参数估计法*/
pool=test /*通过假设检验确定协方差矩阵的形式*/
list /*输出原始数据的类别和概率*/
distance/*要求计算类间的平方距离并输出计算结果*/
testout=result;
class type; /*按照type变量分组*/
var x1-x4; /*指定分析变量*/
proc print data=result;
run;
输出结果
图1 汇总信息
上图为距离判别分析的汇总信息,样本数共20个,分为4类,每类5个样本;由于未指定先验概率,四种发展水平的先验概率一样,都是25%。
图2 关键字pool、distance输出信息
到type的平方距离表示不同类间的平方距离,例如,从低到极高的平方距离为468.44133;到type的广义平方距离同理。距离矩阵主要用于生成判别函数和判别规则,也可用于判断类间区分是否明显。
图3 关键字list输出信息
上图为根据判别函数计算的后验概率,以及对原始数据集中观测进行的重新归类。例如,第六条观测在原始数据集中被归类为高,使用判别函数计算出该观测分别有0.7462、0.2538的概率属于高和中,于是根据概率值的大小,系统判定该观测的类别为高。
图4 原始数据判别结果
由原始数据判别结果可以看出,判别系数回代后各类别及合计的错判率为0。
图5 新数据判别结果
将中国、日本、印度和斯里兰卡的出生时预期寿命、预期受教育年限、平均受教育年限、人均国民总收入四项数据带入进行判别分析,得出日本被归为极高人类发展水平国家,中国和斯里兰卡被归为高发展水平国家,印度被归为中等发展水平国家。
就世界这金碧辉煌与破败不堪,如果将地球展开成一张画卷,那不比清明上河图要精彩万倍。
附上部分人类发展指数数据。
感谢《判别分析——人类发展指数之路》原文作者刘璐提供优秀文章,我们会将更多投稿文章定期分享给大家,再次感谢投稿作者的支持!
机器思维公众号已面向公众开放投稿,优秀文稿我们会第一时间分享给大家,欢迎各位参与投稿!
投稿邮箱:aijqsw@163.com
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有