一、SPSS基本概述
SPSS作为一个统计分析软件,主要功能是对数据进行分析。完整的数据分析过程包括数据收集、整理、分析、报告。统计学为数据分析提供一套完整科学的方法论,统计软件为数据分析提供的实现手段。
(一)SPSS发展简史及版本选择
1. 软件名称
SPSS是该软件的简称,其中发生过几次变化,最早名称是Statistical Package for Social Science,意思是社会学统计软件;后来随着SPSS产品服务领域的扩大和服务深度的增加,改名为Statistica Product and Service Solutions,意思是统计产品与服务解决方案,以反映市场的新趋势;现在,SPSS被IBM收购,改为IBM SPSS Statistics。
2. 版本选择
SPSS发展到现在,已经更新了非常多的版本。对于2007年以前购置的计算机,建议使用13版;对统计术语不熟悉的用户,建议选择17、19、20版,因为这样可以使用中文界面;对统计术语熟悉的用户,根据计算机硬件配置,可以选择15-20版;需要R、Python等第三方扩展功能的用户,应尽量使用最新版本。
(二)产品定位
SPSS公司原产品已经形成了由4大系列产品构成的完整产品线,第一条是date collection family(数据收集产品线),其定位是中低端的数据采集及报告需求;第二条是statistics family(数据统计产品线),其定位是终端的统计分析服务需求;第三条是modeling family(数据挖掘产品线),其定位高端的数据挖掘与商务智能需求领域;第四条是deployment family(发布和管理产品线),相对而言是对前3个产品系列的整合与后台支持。未来,SPSS本身可能会继续向中低端发展,并逐渐与IBM的商务智能系统系列产品高度整合。
(三)SPSS基本特点
从优势来看,第一,功能性强大,能提供多种分析方式;第二,兼容性好,可以输入和输出常见的数据格式,例如EXCEL;第三,易用性强,采用的是对话框方式操作,不需要记代码;第四,扩展性高,与R一样,开放性强,每个人可以往里面加算法。
但也有一些劣势,第一,计算速度相对较慢,数据量多或者复杂,不需要去考虑用SPSS;第二,在统计模型的纳入上速度较慢,因为SPSS属于比较保守的风格,只会纳入大家比较公认的算法,但是对于非统计学专业的人来说是够用的,统计学专业的一般用R,自己写算法,或者用C+,自己写代码。
(四)SPSS的C/S结构(客户端/服务器结构)与模块化结构
大家装的都是客户端模式,服务器版本的计算效率更高,功能更强,但大家应该接触不到。
二、SPSS基本操作
(一)SPSS的运行方式
1. 统计软件的基本运行方式
统计分析软件主要有三种基本使用方式,第一是人际交互对话方式,也就是一来一回,用户一条一条提交命令,软件系统直接对命令进行解释执行,目前State主要是这种操作方式;第二是程序方式,要先写变成语言,放进去进行运行,目前SAS主要是这种操作方式;第三是菜单对话框方式,这种方式好学好记好用,SPSS主要是这种操作方式。
2. SPSS的四种运行方式
SPSS主要的操作方式是菜单对话框方式,从整个软件本身来看,可以分为四种运行方式。
第一是菜单对话框方式,这种方式最常用,最好记,但是重用性差,效率最低,例如我们每个月要做分析,这个月用一个菜单对话框方式做一个分析,下个月又需要用同样的对话框方式做一遍,对于周期性工作效率低。
第二是程序方式,这种方式适合于批量数据分析,但是建议了解基本知识再进行程序方式运行,例如上例中提到的周期性工作,只需要编好程序,直接点击程序运行即可。
第三种是Include命令方式,这种方式是程序方式延伸,也叫嵌入命令方式,就是把一些常用的程序写好,保存好就行,适合于较大规模的分析项目。
第四种是SPSS Production Facility方式,也是程序方式延伸,适合于分布式环境中在服务器上执行分析,这是无人值守的方式,程序编好会自己运行。
(二)SPSS的窗口简介
1. 数据编辑窗口
数据编辑窗口主要体现四大内容,如下图所示。最上面部分,即部分1(图中红线圈出部分,每个部分标有一个序号),该部分是菜单部分,主要操作是在这个部分来选取;中间部分,即部分2,这是数据表格,数据内容正是在该部分显示;左下角部分,即部分3,主要是切换两类视图,分别是数据视图和变量视图,数据视图是主要的操作界面,变量视图是定义变量界面,可以自由切换;右下角部分,即部分4是转态栏,显示的是数据处于怎样一种状态。
2. 结果输出窗口
主要显示数据分析结果,界面是类似资源管理器的界面,如图所示。
3. 语法窗口
编写SPSS程序时使用,功能集中体现在菜单“Run”中。
4. 脚本窗口
该窗口是高级用户进行spss二次平台开发时使用,其中script菜单主要提供基本的开发功能,debug菜单主要提供程序调试的常用功能。
(三)spss对话框操作的基本规范
1. 一级对话框元素
部分1是候选变量列表框,候选变量对话框显示的格式是测量尺度+标签+变量名方式,例如图中该例;部分2是选入变量列表框;部分3是变量移动钮,根据当前框的状态不断变化,也就是把候选变量对话框里的变量选入选入变量列表框里的按钮;部分4是其他按钮,点击这些按钮多数情况下会弹出二级对话框,会给出各种各样的功能;部分5是五个标准按钮,分别是确定、取消、粘贴、重置、帮助,粘贴可以把相应操作变为程序,用于自动生成SPSS程序,重置可以恢复对话框状态为初始状态,帮助可以显示方法简介。
2. 二级对话框元素
单选框(组),这一般均成组出现,在多个选项中选择一个;复选框(组),可成组也可单独出现,也就是多选多;下拉列表框,功能实际上和单选框组相同,只不过做成下拉列表的方式;文本框,往往会和单选框、复选框结合起来使用,可以填内容,例如部分2;框组,这是以上各种元素的集合,它集中完成某项功能,例如显示集中趋势的框组,里面有均值、众数、中位数、合计内容,显示离散的框组里面有标准偏差、方差等内容,也就是部分2。
(四)SPSS菜单项
菜单主要有文件、编辑、视图、数据与转换、分析、直销、图形、实用程序、窗口、帮助几个菜单栏。其中,分析菜单栏提供了90%的分析功能,另外10%过于复杂,必须要用编程去解决;图形菜单栏提供90%的统计图,另外将近10%在分析里,例如P-P图,因为与统计分析结合紧密,所以就放在分析里面,还有一小部分是需要用程序加以调用;帮助菜单栏会提供有一些比较有价值的东西,在帮助里面的统计辅导对于初学者而言,是一个向导式的界面,希望深入研究的话可以查看个案研究里面资料,里面有各种案例操作,算法可以查看背后的算法,社区的话可以在里面找到相应安装包使用,里面有一些编辑好的程序或者插件。
(五)SPSS的结果输出
有四种输出结果,第一是枢轴表/轻量表,这是增强的多维立体表格,拥有动态展示功能,可以复制到其他文件;第二是文本格式,这是标准的RTF文本,现在越来越少,SPSS输出会尽量变为图形;第三是统计图表,这是利用图形来展示数据,例如P-P图,条形图;第四是模型,这是具有更强大的分析结果展示功能,最近几个版本有的,专门用于几个比较特殊的版本,比如树模型。
领取专属 10元无门槛券
私享最新 技术干货