首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >基于SAS软件的聚类分析——以10省市居民生活消费数据为例

基于SAS软件的聚类分析——以10省市居民生活消费数据为例

作者头像
机器思维研究院
发布于 2019-06-10 07:25:38
发布于 2019-06-10 07:25:38
1.3K0
举报
文章被收录于专栏:AI机器思维AI机器思维

中国有句谚语叫“”物以类聚,人以群分“”,刨除这句话的贬义部分来看,用来形容聚类分析再合适不过。聚类分析就是对物(人),根据其各自的特征进行分类的一种多元统计分析方法,同类(同群)之间的物品(人)的特征尽可能相似,不同类(同群)之间的物品(人)的特征尽可能不同。

聚类分析的基本流程为根据样品的多个观测指标,找出能够度量样品之间相似度的统计量,然后以统计量为依据,将关系密切的样本归类到一个小的分类单位,关系疏远的归类到一个大的分类单位,直到将所有样本聚合完毕,形成一个由小到大的分类系统。

在整个聚类分析的过程中主要有以下四大特点:

(1)聚类分析的对象是物(人),即样本;

(2)聚类分析是根据物(人)的特征来进行聚集的,选取的特征不一样,聚类的结果也会存在差异;

(3)聚类分析的关键点在于度量样本的相似性;

(4)聚类分析结果的好坏没有统一的评判标准;

从聚类分析的定义中不难看出,其作用主要是对样本的归类,运用到现实中即对用户的精准细分,方便企业为其提供有针对性的产品和服务。例如银行根据一定指标将用户划分为金卡用户、银卡用户和普通卡用户,这种分法一方面能很好的节约银行的资源,另外一方面也能针对不同的用户实行分级服务,提升用户体验。再比如移动开发的全球通、神州行和动感地带三个套餐或者品牌,实际就是根据用户的行为习惯做了很好的聚类分析。

从企业经营上看,目前被广泛应用的精准营销是企业扩大规模、提高用户体验的重要手段,而聚类分析所实现的用户细分正是精准营销的基础。

案例分析

本文以2012年北京、天津、上海、山东、河北、浙江、江苏、广东、黑龙江、河南10省市的城镇居民生活消费统计数据为例,通过聚类分析对10省市的消费类型进行分类。指标变量共8个,含义如下:

X1;人均食品消费支出 X2:人均衣着消费支出

X3:人均居住消费支出 X4:人均家庭设备及用品消费支出

X5:人均医疗保健消费支出 X6:人均交通和通信消费支出

X7:人均文教娱乐服务消费支出 X8:人均其它消费支出

SAS程序

data xiaofei;

input province $ X1-X8@@;

cards;

北京 7535.3 2638.9 1970.9 1610.7 1658.4 3781.5 3696.0 1154.2

天津 7343.6 1881.4 1854.2 1151.2 1556.4 3083.4 2254.2 899.9

上海 9655.6 2111.2 1790.5 1906.5 1016.7 4563.8 3723.7 1485.5

山东 5201.3 2197.0 1572.4 1126.0 1005.3 2370.2 1655.9 650.2

河北 4211.2 1542.0 1502.4 876.1 1047.3 1723.8 1203.8 424.6

浙江 7552.0 2109.6 1551.7 1161.4 1228.0 4133.5 2996.6 812.4

江苏 6658.4 1916.0 1437.1 1288.4 1058.1 2689.5 3077.8 700.1

广东 8258.4 1520.6 2099.8 1467.2 1048.3 4176.7 2954.1 871.3

黑龙江 4687.2 1806.9 1336.9 742.2 1180.71462.6 1216.6 550.5

河南 4607.5 1886.0 1190.8 1145.4 1085.5 1730.4 1525.3 562.1

;

run;

procclusterdata=xiaofei standardmethod=wardouttree=tree pseudo;

id province;

run;

proctreedata=tree horizontal;

id province;

run;

实验结果

在上图聚类历史中,聚类数表示新类别形成后类别的总数;连接聚类表明这一步合并了哪两个类;频数表示这次合并得到的类包含几个样品,例如第一行表示聚为9类,合并了河北和黑龙江两个地区,第二行表示聚为8类,合并了河北、黑龙江、河南三个地区。

通过观察半偏R²、R²、伪F统计量、伪t²分析出分类的个数,半偏R²的最大值与次大值分别为聚类数为3、4的时候,说明分为3或4类较好;R²在聚类为2、3时差距较大,说明分为2或3类较好;伪F统计量整体差距不明显;伪t²的最大值与次大值出现在聚类为1、2时,说明分为2类较好。

结合聚类历史和聚类谱系图,将10省市分为3个类别较合适,第一类为北京、上海,地区经济十分发达,居民消费支出超过其他两类;第二类为天津、浙江、江苏、广东,东部沿海省份,经济发达,居民消费支出较高;第三类为山东、河北、黑龙江、河南,地区经济发展较其他两类存在一定差距,居民消费支出也相对落后。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-02-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI机器思维 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
【算法竞赛】愚蠢的错点
邻接表,h[]忘记初始化。多组数据时,idx未初始化(会造成数组越界) 当使用并查集时,注意自己写的并查集是不是fa[x]随时都是x的祖宗,若不是,记得要用getfa(x) 变量名有冲突y1, next, prev, has ... 在特别情况下.size()和int整型变量比较时会出错,所以尽量保证式子的运算结果是正数,因为如果是负数,unsigned int类型的变量会变成超大的正数。 priority_queue 默认是大根堆 < Type,vector,greater >是小根堆 在自己写的函数里引
Livinfly
2022/10/26
2970
算法基础学习笔记——⑫最小生成树\二分图\质数\约数
罗列出每个数,依次删除每个数的倍数,剩下的数就是质数,可以对此进行优化,可以不删每一个数的倍数, 可以只删质数的倍数,这样就不用重复删。
命运之光
2024/03/20
1220
算法基础学习笔记——⑫最小生成树\二分图\质数\约数
【算法竞赛 - 搜索】Eight II
只是缺少了始末状态一致的数据,导致我血压高了几小时。(和标程对拍没有问题,交上去就WA)
Livinfly
2022/10/26
2280
【算法竞赛】AtCoder Beginner Contest 284 D, F
赛时并没有意识到枚举范围在三次根号n里,加上自己手写的二分sqrt挂了(丢人),一直没过去,后面把sqrt部分改好也就过了。
Livinfly
2023/01/08
3300
高级数据结构:带边权并查集&拓展域
作为家喻户晓的并查集,运用简单的几行代码就实现了多个数据间从属关系的高效维护和查找。最基本的并查集没啥好说的了,定义一个fa数组表示x的父亲,初始化所有数据一开始的父亲是自己,然后就是查找和合并的操作,自认为最简单的模板见下:
Here_SDUT
2022/08/08
1.2K0
高级数据结构:带边权并查集&拓展域
补题A-E Codeforces Round 953 (Div. 2)
假设每个点都投资1元,对于a[i],投资1元的期望收益是a[i]/n,总的期望收益是sum(a)/n。
WuShF
2025/02/26
991
补题A-E Codeforces Round 953 (Div. 2)
2018年第九届蓝桥杯B组题解
按着题目把这些数转换成8字节的二进制数就可以了,负数的二进制是补码。可以自己写个函数实现一下,实际效果图:
Ch_Zaqdt
2019/01/10
3K0
【算法竞赛】Namomo Winter 2023 Day 3 Div 2
Dashboard - 2017-2018 ACM-ICPC, NEERC, Northern Subregional Contest - Codeforces
Livinfly
2023/01/11
3660
树状数组-从入门到拓展(转载非原创)
转载来源:https://www.cnblogs.com/AKing-/p/15311440.html
xlj
2021/09/20
4650
LeetCode周赛290,什么?你不会树状数组,这太不公平了
我们老规矩来看LeetCode周赛第290场。这一场比赛的赞助商是华为,应该说是目前为止赞助商当中规模最大的公司了。
TechFlow-承志
2022/09/21
5120
LeetCode周赛290,什么?你不会树状数组,这太不公平了
LeetCode第333场,第二题差点没做出来是几个意思……
这次的赛题难度稍大,多花了点时间……照惯例咱们来聊一聊上周的LeetCode周赛,这一次是第333场。由佳期投资赞助,并且前100名的同学可以获得简历直通的机会。这已经好久没有出现了,算是市场行情的一个参照物吧。
TechFlow-承志
2023/03/02
5330
LeetCode第333场,第二题差点没做出来是几个意思……
【算法竞赛】水CF构造题
我太弱了,水水构造tag的题去。 大概只写写思路(毕竟构造题) 打*的是自己想没直接出来的。 发布时间,最早为20220814-14:14,现在为最新水题时间。
Livinfly
2022/10/26
4900
《算法竞赛进阶指南》0x14 Hash
与离散化思想类似,当我们要对若干复杂信息进行统计时,可以用 Hash函数 把这些复杂信息映射到一个容易维护的值域内
一只野生彩色铅笔
2022/10/31
1.8K0
LCS、LIS、LICS算法
给定两个序列 ,设 为 的长度,其中 分别表示 从首元素到第 i 个元素的一段、 从首元素到第 个元素的一段, 分别表示 中第 i个元素、 中第 个元素,序列 和 的长度分别为 和 。则 的状态转移方程为:
hotarugali
2022/03/01
8840
程序员进阶之算法练习(六十五)
题目链接 题目大意: 给出n个整数和整数x,问能否找到一个顺序: 按照这个顺序累加数字,中间不会出现数字和等于x; 已知n个整数互不相同。
落影
2022/09/23
1710
算法竞赛偷分技巧
读取第k位:a>>k&1读取第k位并取反:心a>>k&1将第k位清0:a&=(1<< k)将第k位置1:a|=1<< k将第k位取反:a^=1<< k将第k1~k2位反转:a^=((1<< (k2-k1+1))-1)<< k2是否恰好只有一个true:!(x&(x-1))&&x判断是否有两个相邻的true:X>>1&X是否有三个相邻的txue:X>>1&X>>2&X
用户11062199
2024/06/19
1370
《算法竞赛进阶指南》0x18 总结与练习
这一天,刚刚起床的达达画了一排括号序列,其中包含小括号 ( )、中括号 [ ] 和大括号 { },总长度为
一只野生彩色铅笔
2022/10/31
9940
《算法竞赛进阶指南》0x18 总结与练习
《算法竞赛进阶指南》0x24 迭代加深
这种策略带有一定的缺陷:如果搜索树每个节点的分支数目非常多,且问题的答案在某个较浅的结点上,如果深搜在一开始选错了分支,就可能在不包含答案的深层次树上浪费许多时间
一只野生彩色铅笔
2022/10/31
8440
Codeforces 的题目真的值得算法竞赛选手训练吗?
个串,有两种操作,一种是给某个串加一个字符,另一种是求存不存在一个串是查询串的子串。强制在线。
ACM算法日常
2021/11/10
9780
wz刷题汇总
个人刷题记录(不完全) cf-contests 存一些让我再写不一定写得来的或者我可能去扒原题的? 1202D d3线下想的数学题 1214D dfs可以搞 两次dfs 第一次把走过的路堵上(“D不是
wenzhuan
2022/08/15
4000
相关推荐
【算法竞赛】愚蠢的错点
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档