前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【数据分析之】深入浅出数据分析摘要

【数据分析之】深入浅出数据分析摘要

原创
作者头像
二锅头一桶天下
修改2023-12-03 16:15:27
1830
修改2023-12-03 16:15:27
举报

1 数据分析引言:分解数据

协助例子:

化妆品

I 核心点

  • 确定 - 拆解 - 评估 - 决策

确定:确定问题。问一切有歧义、不明确的问题,各种细节,确定用户要什么。将自己当作侦探,对用户的要求逐字逐句进行追问,帮助用户确定TA自己要什么。世上没有傻问题,不问问题才是傻。

拆解:对确定的问题拆解为各种细问题,以便各个击破。将数据拆解为各个小数据,协助各个击破。按照事实和假设,确定自己的心智模型,针对问题进行数据分析,找到蛛丝马迹。可见怎么拆解问题和数据,是核心内容。

评估:通过拆解,其实已经可以得到一些解决方案,针对方案进对比,确定最终的方案。

决策:通过评估获得可行的方案,需要提交这个方案给到决策方。

决策方:客户。

  • 心智模型

对外界的假设和自己确定的观点就是你的心智模型。如果与事实不符合,一定要及时止损,即及时承认自己的认知错误。

心智模型的改变,需要详细记录改变的根据,让客户详细的浏览你的思考过程。

II 总结

  • 数据分析的通用流程:确定 - 拆解 - 评估 - 决策。
  • 心智模型的改变根据是说服客户的一个手段。

2 实验:检验你的理论

协助例子:

咖啡价格

I 核心点

  • 找到最直观的影响数据波动的因素。
  • 比较是破解数据的法宝

当怀疑因果关系的走向时,则进行反向思考。(2010年出版的书,即提到了降价会影响到品牌价值。)

  • 控制变量法

避免混杂其他因素

II 总结

  • 找到直接影响数据波动的因素,进行比较
  • 控制实验变量

3 最优化:寻找最大值

协助例子:

橡皮鸭与橡皮鱼

I 核心点

  • 约束条件

决策过程中,无法逾越的事情

  • 决策变量

可以控制的事情

  • 目标函数

f(x)=决策变量&约束条件

  • 模型只是描述了你规定的情况

肯定简化了实际情况,导致模型无用。要根据不断变化的实际情况,修改模型

II 总结

  • 求最值的过程中,需要创建一个合适的模型,并结合不断变化的实际情况进行定论

4 数据图形化:图形让你更精明

协助例子:

衣服电商网页

I 核心点

  • 在庞大的数据中提取有用的数据
  • 使用散点图,观察自变量和因变量之间的因果关系
  • 多元图形

对三个以上的变量进行比较,尽量让图形多元化

II 总结

  • 图形化能明确体现数据之间的关联关系,而表格只是一坨。
  • 炫酷的设计,不如直接展示数据。数据分析需要的是数据展示,你是数据分析师,不是UI设计师。让数据变美观,不是你该考虑的问题。
  • 数据太多,则集中注意目标相关的数据。
  • 散点图是探索性数据分析的好工具,用于发现因果关系。

5 假设检验:假设并非如此(伪证法)

协助例子:

手机壳

I 核心点

  • 伪证法

设计几个相关的假设的点,用手头的资料进假设验证。

请勿试图找出最合理的假设,只需要剔除无法证实的假设,即证伪。

证伪法比满意法更贴合实际,满意法的严重问题是,即使反面证据堆积如山,但是第一印象导致你往往视而不见。

并非只有数字才是数据,“数据”以各种形式存在,如小道消息。

诊断性

根据数据,诊断假设的可能性大小

如果某一个证据,对各个假设的支持强度是一致的,则这个证据不具备诊断性,可以排除。

II 总结

  • 伪证法比满意法更理智
  • 伪证法适用于异质数据

6 贝叶斯统计:穿越第一关

协助例子:

确诊患流感概率

I 核心点

  • 适用于直接概率问题

在基础概率的基础上,分析波动数据

即基础概率是确定的这个前提下P(L),出现目标的概率

  • P(L|+)

例子:患病人群P(L),基础概率。

客观事实L

客观事实~L

测试目标+

P(+|L),真感染,测试感染 0.9

P(+|~L),未感染,测试感染 0.09

测试目标-

P(-|L),真感染,测试未感染 0.1

P(-|~L),未感染,测试未感染 0.91

在L的条件下,P(+|L) = 1 - P(-|L)

在~L的条件下,P(+|~L) = 1 - P(-|~L)

  • 求一个怀疑的东西

P(L|+):测试+的情况下,事实L的概率

P(L|+) = (P(L) * P(+|L)) / (P(L) * P(+|L) + P(~L) * P(+|~L))

P(L|+) = (1% * 90%) / (1% * 90% + 99% * 9%) = 0.091

  • 信息整合工具

贝叶斯公式是信息整合工具,在新的信息出现后,可以重复利用重复整合。

不管怎么样,9%的概率已经远远大于基础概率%1了,你不怀疑吗?在这个基础上,能不能再检测一次

此时第三次的P(L) = 第二次的P(L|+),例子中从1%变成了9%
此时第三次的P(L) = 第二次的P(L|+),例子中从1%变成了9%

但是我对基础概率有怀疑,为什么要取这个为基础概率?

只是为了说明贝叶斯公式可迭代,因为第二次检测与第一次检测相违背,而不是相辅相成!

II 总结

  • 贝叶斯公式用于判断基础概率P(B)的基础上,在A条件下是B的概率。并可迭代。
  • P(B|A) = (P(B) * P(A|B)) / (P(B) * P(A|B) + P(~B) * P(A|~B))
  • B的基础上A的概率 & 非B的基础上A的概率。

7 主观概率:信念数字化

协助例子:

投资公司

I 核心点

  • 主观概率是一种将严谨融入直觉的便捷办法

概率用词的出现,证明了提出的观点是一种主观的观点:可能,肯定,大有机会,等

使用散点图进行描述,可以简单地得出概率。

  • 标准偏差

分析点与数据集平均值的差距。数据集中的大部分点,都会落在平均值的一个标准偏差范围内。

  • 使用主观概率不能保证主观概率的正确性

II 总结

  • 将主观的观点进行数字化描述,方能看出差异

8 启发法:凭人类的天性作分析

协助例子:

小镇的垃圾数据从哪里获得

I 核心点

  • 获取直观的数据,不容易。无法建立统一的计量模型。
  • 启发法,从直觉走向最优。最优化是一种理想的境界。从计算机的角度来说,启发算法可能获得最优解,但不保证。
  • 分析师尽量避免依赖直觉。
  • 如果A的数据无法直观获得,则用B的数据进行分析,换一个角度

II 总结

  • 换一个角度,农村包围城市的算法。
  • 提交的报告,也就是心智模型的转变,需要描述清晰。

9 直方图:数字的形状

协助例子:

使用什么手段提涨薪更有效

I 核心点

  • 数据的图形表示方法不计其数,直方图是其中出类拔萃的一种。

直方图与柱状图有些相似,能迅速而有效地汇总数据 。这种小巧而实用的图形量度数据的分布、差异、集中趋势等。

主要是为了介绍一种统计算软件。

II 总结

  • 柱状图看趋势。可能是教程比较老,趋势图不是更好?

10 回归:预测

协助例子:

预测加薪幅度

I 核心点

  • 回归算法

计算机中也经常提到回归算法。

回归线就是最准确地贯穿散点图中的各个点的直线。

  • 回归线:

一些数据会回归到一个平均水平。的确是这样,比如工资、N BA运动员的身高等等。

回归线对于一些线性相关的数据很有用。通常就得出来一个一元一次方程。

II 总结

  • 线性回归函数可以大致用来预测

11 误差:合理误差

协助例子:

加薪谈判的误差

I 核心点

  • 预测就有不准的风险

预测有失精准并不稀奇。不过,如果在进行预测的时候指出误差范围,你和你的客户就不仅能知道平均预测值,还能知道该误差造成的典型偏差,指出误差可以让预测和信念更全面。还需要懂得如何控制误差及如何尽量降低误差,从而提高预测可信度。

  • 千万要对模型假设保持戒心

观察他人的模型时,一定要想一想他们的假设有何道理,以及他们是否忘记了某种假设。

不合适的假设会使模型完全失效,这还算是最好的结果;最坏的结果是具有危险的欺骗性。

  • 预测值与实际值之间的误差,叫做机会误差

对机会误差的分析,是统计模型的核心。也称作均方根误差。

均方根误差

描述的是回归线周围的分布情况,指出两个变量之间的关系。

使用均方差得到了回归线与差值的关系

此时,不同的地方差值很大。所以可以考虑将数据分为不同的区域,使用不同的回归线预测。

均方根误差解释见 维基百科

II 总结

  • 回归预测与实际肯定有误差,能解释即可
  • 分组进行回归预测

12 相关数据库:你能关联吗?

协助例子:

RDBMS

I 核心点

跳过,关系型数据库的使用

II 总结

13 整理数据:井然有序

协助例子:

数据整理

I 核心点

  • 数据分析有一个不可告人的秘密——作为数据分析师,你花在数据整理上的时间多过数据分析上的时间。
  • 到手的数据往往算不上井井有条,因此,需要做一些繁重的文字处理工作, 使数据格式符合分析的需要。

II 总结

  • 数据按照规则进行提取,使得杂乱的数据变得有规则。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 数据分析引言:分解数据
    • I 核心点
      • II 总结
      • 2 实验:检验你的理论
        • I 核心点
          • II 总结
          • 3 最优化:寻找最大值
            • I 核心点
              • II 总结
              • 4 数据图形化:图形让你更精明
                • I 核心点
                • 5 假设检验:假设并非如此(伪证法)
                  • I 核心点
                  • 6 贝叶斯统计:穿越第一关
                    • I 核心点
                    • 7 主观概率:信念数字化
                      • I 核心点
                        • II 总结
                        • 8 启发法:凭人类的天性作分析
                          • I 核心点
                            • II 总结
                            • 9 直方图:数字的形状
                              • I 核心点
                                • II 总结
                                • 10 回归:预测
                                  • I 核心点
                                    • II 总结
                                    • 11 误差:合理误差
                                      • I 核心点
                                        • II 总结
                                        • 12 相关数据库:你能关联吗?
                                          • I 核心点
                                            • II 总结
                                            • 13 整理数据:井然有序
                                              • I 核心点
                                                • II 总结
                                                相关产品与服务
                                                关系型数据库
                                                领券
                                                问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档