学员问:
大数据分析工具太多,如Excel/Tableau/PowerBI/SPSS/SAS,以及Python/R等等,这么多工具,到底用哪个好呢?
答曰:
单纯地判断哪个工具好,是没有意义的,还要看你用来解决什么样的问题?
我来帮你区分一下这些术语。
1、分析工具:Excel、SPSS、Tableau等属于分析工具类;
2、分析语言:Python、R等属于分析脚本语言。
分析工具类,如果细分还可以分为统计工具和挖掘工具。
1)统计工具:比如像Excel/Tableau/PowerBI都属于统计工具,此类工具的很简单,是基于统计(比如分类汇总)的分析工具,通过统计指标,查看业务的规律、变化、趋势等等,来作出对业务的判断并给出合适的业务策略。
所以,此类工具侧重于业务的描述性分析(业务规律、业务变化、业务周期),常用有的分析方法有:对比分析、分布分析、结构分析、趋势分析等等。
2)挖掘工具:像SPSS/SAS类就属于挖掘工具。此类挖掘工具侧重探索隐藏得比较深的业务知识和模式,挖掘工具侧重于业务的影响因素分析、预测性分析等等,讲究分析模型(比常规的分析方法要复杂),在分析模型中不见得有统计指标,而是模式。
常用的分析模型:影响因素分析(相关/方差/列联分析)、数据预测模型(回归预测/时序预测)、分类预测模型(决策树、神经网络、支持向量机等),当然还其它更多的模型,比如聚类、关联等等。
理论上,高级的数据挖掘工具也能够实现统计分析功能,即Excel能够实现的,理论上SPSS也可以实现。但坦白地说,用挖掘工具来做统计工具分析,其效率反而没有统计工具高;而且操作比较复杂,可视化功能也相对较差。
而且,当前绝大多数公司,都是在用Excel/SQL来做数据分析,可见他们并没有什么复杂的业务问题需要用到更高级的挖掘工具,简单的工具已经足以胜任平时的业务数据分析了。实际上平时的工作中80%的业务数据分析都可以用Excel/SQL来完成。
最后再来说分析语言Python/R。
3)分析语言:
分析语言本身也可以看作是一种特殊的分析工具。只是这种分析工具与Excel/SPSS相比不一样,Excel/SPSS只需要通过拖拉就能够实现数据分析结果,但Python/R则需要通过写脚本写代码的方式来运行分析,所以用Python/R做数据分析就比较复杂。
作为工具,Excel/SPSS中已经内置和封装了很多常用的分析方法、分析模型,所以你不需要花太多的时间去弄明白是怎样实现的,甚至你有时不需要知道数据公式和原理(如果知道的话就更好了),你只需要聚焦在业务层面,就可以实现业务数据分析,得到良好的分析结果。所以,使用工具的优点在于:简单易操作,不需要掌握深奥的理论知识。
但是,正因为工具封装了具体的实现过程,无法对分析模型进行修改或自定义,如果你们公司需要一些特殊的分析模型,或者需要对原有的模型进行修改或优化,而分析工具又不支持的话,那么此时你就得要使用分析语言Python来实现自定义的分析流程了。
当你使用Python分析语言时,你就得必须了解分析模型的数学原理及实现过程,还得要掌握编程的一系列技能,才能够胜任Python/R的分析工作。同时,你得花大量的时间在如何实现模型上,而无法真正聚焦在业务问题的解决上了。
所以,比起用分析工具,用Python的好处是可以任意修改或定制化模型、可以自动化实现分析流程,但坏处也是显而易见的(分析复杂、周期较长、技能要求高)。你拥有了定制化,就失去了简洁;你拥有了超强的功能,就增加了复杂度,此即有得就必有失了。
我是不建议初学者学习Python的。因为学习难度高,学习周期长,还不一定有Excel/SPSS好用和效果好。除非你本身就是计算机专业毕业,具有编程能力,此基础上学习Python就相对容易了,而且在学好Python之前,你也要懂分析思路,分析方法,分析模型等知识。
关于就业
关于就业,最后说一下:
----实际情况,当前绝大多数的企业,业务简单到只需要用Excel/SQL等分析工具,就能够解决工作中80%的业务分析问题,部分复杂问题只需要用SPSS也可以基本解决;
----当然,如果你说你懂什么Python/SAS等,那绝对是装B的加分项。尽管有很多公司领导甚至不知道这两个英文是什么意思。
----银行金融行业用SAS工具的多,其它的行业用SPSS等其它工具的多。
领取专属 10元无门槛券
私享最新 技术干货