前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >品玩SAS:判别分析——人类发展指数之路

品玩SAS:判别分析——人类发展指数之路

作者头像
机器思维研究院
发布于 2019-06-10 07:26:20
发布于 2019-06-10 07:26:20
9720
举报
文章被收录于专栏:AI机器思维AI机器思维

都说身体是革命的本钱,奈何最近时日革命之斗志日渐萎靡,倒不是说思想滑坡掉进了用进废退的陷阱,只是“革命的本钱”透支严重,不信你看这被塞满的地漏上全是我逝去的头发!正当惊觉不妙的我在电脑前检索“脱发”时,一条脱发等级刺痛了我的双眼。看吧,不仅知道你脱发,而且还贴心的告诉你是否站上了脱发界金字塔的顶端!要是划分依据在清晰一些,那真是满足了脱发界的重度焦虑患者。像脱发这样的具体分类等级,正是我们根据一些分类标准或过去的经验对评判事物贵贱、好坏、美丑的评判,应用到统计领域就是我们在对事物做判别分析。

判别分析是在已知历史上用某些方法将研究对象分成若干类的情况下,确定新的观测样品应归属哪一类的统计分析方法。其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标,据此确定某一样本属于何类。通俗点说就是事物分类的标准已经制定好了,现在只需将新事物对号入座即可。

判别分析常见的方法有距离判别、Fisher判别和Bayes判别等。距离判别法是根据样本和不同总体的距离判定该样品所属的类别;Fisher判别的基本思想是投影,即通过投影使类间的差异最大,以此来对样本进行分类;Bayes判别是以概率为判别准则来分类,即样本属于哪一类的概率最大就分到哪一类。

目前判别分析在经济、医学、天气等领域有着广泛的应用,例如判断国家经济发展程度所属类型,根据不同症状和化验结果等指标来诊断患病类型,根据最近的气象资料来判断未来天气等。

本期“品玩SAS”以判别分析为题,运用距离判别分析法将不同国家根据其人类发展指数进行归类。人类发展指数(HDI——Human Development Index)是由联合国开发计划署(UNDP)在《1990年人文发展报告》中提出的,用以衡量联合国各成员国经济社会发展水平的指标。人类发展指数 (HDI) 是一个整合了人类发展以下三个基本维度的综合指数:以出生时预期寿命来衡量的过上健康长寿生活的能力;以平均受教育年限和预期受教育年限来衡量的获取知识的能力;以人均国民总收入来衡量的过上体面生活的能力。

本文从2017年人类发展指数中,选取极高人类发展水平、高人类发展水平、中等人类发展水平和低人类发展水平国家各5个作为四组样品,另选4个国家进行判别分析。

指标说明

x1:出生时预期寿命

x2:预期受教育年限

x3:平均受教育年限

x4:人均国民总收入

type:发展水平

country:国家

SAS程序

data test;

/*生成对照样本数据集test*/

input type $ country $ x1 x2 x3 x4;

cards;

极高 美国 79.5 16.5 13.4 54941

极高 德国 81.2 17.0 14.1 46136

极高 瑞士 83.5 16.2 13.4 57625

极高 澳大利亚 83.1 22.9 12.9 43560

极高 韩国 82.4 16.5 12.1 35945

高 利比亚 72.1 13.4 7.3 11100

高 古巴 79.9 14.0 11.8 7524

高 泰国 75.5 14.7 7.6 15516

高 巴西 75.7 15.4 7.8 13755

高 汤加 73.2 14.3 11.2 5547

中 埃及 71.7 13.1 7.2 10355

中 越南 76.5 12.7 8.2 5859

中 孟加拉国 72.8 11.4 5.8 3677

中 缅甸 66.7 10.0 4.9 5567

中 肯尼亚 67.3 12.1 6.5 2961

低 津巴布韦 61.7 10.3 8.1 1683

低 苏丹 64.7 7.4 3.7 4119

低 几内亚 60.6 9.1 2.6 2067

低 也门 65.2 9.0 3.0 1239

低 尼日利亚 53.9 10.0 6.2 5231

;

data test1; /*生成待判样品数据集test1*/

input country $ x1 x2 x3 x4;

cards;

中国 76.4 13.8 7.815270

日本 83.9 15.2 12.8 38986

印度 68.8 12.3 6.4 6353

斯里兰卡 75.5 13.9 10.9 11326

;

proc discrim data=test testdata=test1

method=normal

/*假定分类是多元正态分布,采用参数估计法*/

pool=test /*通过假设检验确定协方差矩阵的形式*/

list /*输出原始数据的类别和概率*/

distance/*要求计算类间的平方距离并输出计算结果*/

testout=result;

class type; /*按照type变量分组*/

var x1-x4; /*指定分析变量*/

proc print data=result;

run;

输出结果

图1 汇总信息

上图为距离判别分析的汇总信息,样本数共20个,分为4类,每类5个样本;由于未指定先验概率,四种发展水平的先验概率一样,都是25%。

图2 关键字pool、distance输出信息

到type的平方距离表示不同类间的平方距离,例如,从低到极高的平方距离为468.44133;到type的广义平方距离同理。距离矩阵主要用于生成判别函数和判别规则,也可用于判断类间区分是否明显。

图3 关键字list输出信息

上图为根据判别函数计算的后验概率,以及对原始数据集中观测进行的重新归类。例如,第六条观测在原始数据集中被归类为高,使用判别函数计算出该观测分别有0.7462、0.2538的概率属于高和中,于是根据概率值的大小,系统判定该观测的类别为高。

图4 原始数据判别结果

由原始数据判别结果可以看出,判别系数回代后各类别及合计的错判率为0。

图5 新数据判别结果

将中国、日本、印度和斯里兰卡的出生时预期寿命、预期受教育年限、平均受教育年限、人均国民总收入四项数据带入进行判别分析,得出日本被归为极高人类发展水平国家,中国和斯里兰卡被归为高发展水平国家,印度被归为中等发展水平国家。

就世界这金碧辉煌与破败不堪,如果将地球展开成一张画卷,那不比清明上河图要精彩万倍。

附上部分人类发展指数数据。

感谢《判别分析——人类发展指数之路》原文作者刘璐提供优秀文章,我们会将更多投稿文章定期分享给大家,再次感谢投稿作者的支持!

机器思维公众号已面向公众开放投稿,优秀文稿我们会第一时间分享给大家,欢迎各位参与投稿!

投稿邮箱:aijqsw@163.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-03-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI机器思维 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
pip-修改为国内镜像源
pip 常用命令 pip install ./downloads/SomePackage-1.0.4.tar.gz  pip install http://my.package.repo/SomePackage-1.0.4.zip pip search "query"   ##查询package的具体名称 pip uninstall package-name  ##卸载 pip install SomePackage==1.0.4  ##指定版本的安装 pip install --upgrade SomeP
保持热爱奔赴山海
2019/09/17
4K0
pip pip3 替换国内镜像源
在采用默认 pip3 安装第三方库的时候,经常会出现超时的情况。 pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool(host='files.pythonhosted.org', port=443): Read timed out.
Devops海洋的渔夫
2019/10/14
58.2K1
pip pip3 替换国内镜像源
pip镜像源配置,pip使用国内镜像源, pip禁用国外源,pip源配置
默认情况下 pip 使用的是国外的镜像,在下载的时候速度非常慢,本文我们介绍使用国内清华大学的源,地址为:
高久峰
2023/06/20
1.4K0
pip设置全局镜像源
为什么要配置全局镜像源? 在python下载第三方库时,pip默认是以国外的方式下载,往往我们没有访问国外网站的话,下载速度极其慢。 而配置了国内的镜像,则可以通过国内的网络直接下载三方库,速度奇快。 一般配置镜像,有的人还在IDE里面配置,但往往我们虚拟环境过多,或者经常切换使用cmd进行pip下载时,又需要再次配置镜像,于是乎就引申出了配置全局镜像源,只需要配置一次,你整台电脑都可以享受镜像加速的加持! 网络上搜集的很多配置全局变量,需要自己手动去c盘下面,user文件夹下面找到pip的文件夹,但我跟着操作发现,奇了怪了,我没有这个文件夹,所以我想,应该不止我一个人。
梦无矶小仔
2022/06/30
2.9K0
pip设置全局镜像源
2025最新 pip install 国内可用镜像源仓库地址(01月01日更新)
在 Python 开发 中,无论是安装常用库如 numpy、pandas,还是下载 AI 框架如 TensorFlow、PyTorch,使用 pip 时经常遇到下载速度慢、连接超时甚至失败的问题。这些问题在国内尤为突出,原因是国内与官方 PyPI 仓库的网络延迟较高。为了解决这个痛点,选择高效、稳定的 pip 国内镜像源 是提高开发效率的关键。🎉 本篇文章为大家带来 2025年1月最新 pip 国内可用镜像源仓库地址,包括清华大学、阿里云、腾讯云等顶级国内镜像源,详细介绍其配置方法与常见问题解答,助力您的 Python 开发之旅更加顺畅!💻
猫头虎
2025/01/03
9.4K0
超简单更换PIP国内下载源
在Python中使用pip下载库的时候,默认是会连接国外的源,经常会出现连接超时的情况,这时候就需要修改一下pip的默认下载源为国内的镜像源,这样下载库的时候就可以很快了。
非著名运维
2022/06/22
1.3K0
超简单更换PIP国内下载源
修改Python的镜像源
<!-- p.p1 {margin: 0.0px 0.0px 0.0px 0.0px; font: 15.0px Menlo; color: #ffffff; background-span class="hljs-keyword" background-color: rgba(0, 0, 0, 0.73)} span.s1 {font-variant-ligatures: no-common-ligatures} -->
py3study
2020/01/16
2.2K0
linux配置pip源_配置国内PIP源方法
python开发者都知道,当我们pip install安装扩展库的时候,经常遇到安装失败(超时)等,有时候是因为国外镜像被屏蔽了,带来不少麻烦,
全栈程序员站长
2022/09/06
4.9K0
将pip源更换到国内镜像「建议收藏」
用pip管理工具安装库文件时,默认使用国外的源文件,因此在国内的下载速度会比较慢,可能只有50KB/s。幸好,国内的一些顶级科研机构已经给我们准备好了各种镜像,下载速度可达2MB/s。 其中,比较常用的国内镜像包括:
全栈程序员站长
2022/08/19
1.3K0
将pip源更换到国内镜像「建议收藏」
pip.conf配置问题+多个 国内源+SSL
服务器为linux系统 在墙内使用pip总会遇到一些问题,ti子经常会 挂掉,更换国内的源或许更合适,如清华源、中科大源、豆瓣源、阿里源等。 大致配置如下:
烤粽子
2021/07/07
4.3K0
pip使用国内镜像源
Windows下安装完pip之后,利用pip安装第三方库是默认是从国外下载包的。下载速度很慢,个人在安装opencv-python时每秒约28k左右,下载了好长时间,我们可以把镜像源设置成国内的,这样安装第三方库时可以获得更快的下载速度。
申霖
2019/12/27
2K0
pip使用国内镜像源
使用默认pypi源出现连接超时的解决办法
最近博主在做一个项目的时候,直接运行pip install django命令,出现这种情况:
啃饼思录
2018/10/15
18.1K0
Python——pip设置国内镜像源
清华:https://pypi.tuna.tsinghua.edu.cn/simple 阿里云:http://mirrors.aliyun.com/pypi/simple/ 中国科技大学: https://pypi.mirrors.ustc.edu.cn/simple/ 豆瓣:http://pypi.douban.com/simple/
思索
2024/08/15
6380
pycharm conda 虚拟环境_yum源配置本地镜像
这里面是各种平台,正确的链接应该再加上对应的平台。例如mac系统64位的配置是这样:
全栈程序员站长
2022/09/27
5960
pycharm conda 虚拟环境_yum源配置本地镜像
pip install 使用国内镜像
对于Python开发用户来讲,PIP安装软件包是家常便饭。但国外的源下载速度实在太慢,浪费时间。而且经常出现下载后安装出错问题。所以把PIP安装源替换成国内镜像,可以大幅提升下载速度,还可以提高安装成功率。
全栈程序员站长
2022/06/27
1.6K0
python pip 换源_python添加pip环境变量
2. 新建一个 pip 文件夹,在 pip 文件夹里面新建一个配置文件 pip.ini:
全栈程序员站长
2022/11/15
1K0
python pip 换源_python添加pip环境变量
pip 常用命令与国内源配置
pip默认源存在速度慢的问题,本文介绍pip命令添加国内源的方法。 pip常用命令 安装包 pip install Package pip install -r requirements.txt 更新包 pip install -U Package 卸载包 pip uninstall Package 列出已安装软件 pip list pip freeze pip freeze -r requirements.txt 某个包详细信息 pip show -f Package 国内源配置 常用的国
为为为什么
2022/08/05
5260
让python的pip使用 国内镜像
清华:https://pypi.tuna.tsinghua.edu.cn/simple
青阳
2022/02/24
8.2K0
[883]python安装包出现Retrying
问题:安装包出现Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None)) after connection broken by 'ConnectTimeoutError
周小董
2020/08/03
5.9K0
镜像源、chromedriver、firefox下载地址
一、镜像源地址 阿里云 http://mirrors.aliyun.com/pypi/simple/ 中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/ 豆瓣(douban) http://pypi.douban.com/simple/ 清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/ 中国科学技术大学 http://pypi.mirrors.ustc.edu.cn/simple/ pip install -
懿曲折扇情
2022/08/24
10.3K0
相关推荐
pip-修改为国内镜像源
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档