【数据分析之】深入浅出数据分析摘要

原创

二锅头一桶天下

修改于 2023-12-03 16:15:27

1830

修改于 2023-12-03 16:15:27

文章被收录于专栏：二锅头一桶天下二锅头一桶天下

1 数据分析引言:分解数据

协助例子：

化妆品

I 核心点

确定 - 拆解 - 评估 - 决策

确定：确定问题。问一切有歧义、不明确的问题，各种细节，确定用户要什么。将自己当作侦探，对用户的要求逐字逐句进行追问，帮助用户确定TA自己要什么。世上没有傻问题，不问问题才是傻。

拆解：对确定的问题拆解为各种细问题，以便各个击破。将数据拆解为各个小数据，协助各个击破。按照事实和假设，确定自己的心智模型，针对问题进行数据分析，找到蛛丝马迹。可见怎么拆解问题和数据，是核心内容。

评估：通过拆解，其实已经可以得到一些解决方案，针对方案进对比，确定最终的方案。

决策：通过评估获得可行的方案，需要提交这个方案给到决策方。

决策方：客户。

心智模型

对外界的假设和自己确定的观点就是你的心智模型。如果与事实不符合，一定要及时止损，即及时承认自己的认知错误。

心智模型的改变，需要详细记录改变的根据，让客户详细的浏览你的思考过程。

II 总结

数据分析的通用流程：确定 - 拆解 - 评估 - 决策。
心智模型的改变根据是说服客户的一个手段。

2 实验:检验你的理论

协助例子：

咖啡价格

I 核心点

找到最直观的影响数据波动的因素。
比较是破解数据的法宝

当怀疑因果关系的走向时，则进行反向思考。（2010年出版的书，即提到了降价会影响到品牌价值。）

控制变量法

避免混杂其他因素

II 总结

找到直接影响数据波动的因素，进行比较
控制实验变量

3 最优化:寻找最大值

协助例子：

橡皮鸭与橡皮鱼

I 核心点

约束条件

决策过程中，无法逾越的事情

决策变量

可以控制的事情

目标函数

f(x)=决策变量&约束条件

模型只是描述了你规定的情况

肯定简化了实际情况，导致模型无用。要根据不断变化的实际情况，修改模型

II 总结

求最值的过程中，需要创建一个合适的模型，并结合不断变化的实际情况进行定论

4 数据图形化:图形让你更精明

协助例子：

衣服电商网页

I 核心点

在庞大的数据中提取有用的数据
使用散点图，观察自变量和因变量之间的因果关系

多元图形

对三个以上的变量进行比较，尽量让图形多元化

II 总结

图形化能明确体现数据之间的关联关系，而表格只是一坨。
炫酷的设计，不如直接展示数据。数据分析需要的是数据展示，你是数据分析师，不是UI设计师。让数据变美观，不是你该考虑的问题。
数据太多，则集中注意目标相关的数据。
散点图是探索性数据分析的好工具，用于发现因果关系。

5 假设检验:假设并非如此（伪证法）

协助例子：

手机壳

I 核心点

伪证法

设计几个相关的假设的点，用手头的资料进假设验证。

请勿试图找出最合理的假设，只需要剔除无法证实的假设，即证伪。

证伪法比满意法更贴合实际，满意法的严重问题是，即使反面证据堆积如山，但是第一印象导致你往往视而不见。

并非只有数字才是数据，“数据”以各种形式存在，如小道消息。

诊断性

根据数据，诊断假设的可能性大小

如果某一个证据，对各个假设的支持强度是一致的，则这个证据不具备诊断性，可以排除。

II 总结

伪证法比满意法更理智
伪证法适用于异质数据

6 贝叶斯统计:穿越第一关

协助例子：

确诊患流感概率

I 核心点

适用于直接概率问题

在基础概率的基础上，分析波动数据

即基础概率是确定的这个前提下P(L)，出现目标的概率

P(L|+)

例子：患病人群P(L)，基础概率。

	客观事实L	客观事实～L
测试目标+	P(+\|L),真感染，测试感染 0.9	P(+\|~L),未感染，测试感染 0.09
测试目标-	P(-\|L),真感染，测试未感染 0.1	P(-\|~L),未感染，测试未感染 0.91

在L的条件下，P(+|L) = 1 - P(-|L)

在～L的条件下，P(+|~L) = 1 - P(-|~L)

求一个怀疑的东西

P(L|+)：测试+的情况下，事实L的概率

P(L|+) = (P(L) * P(+|L)) / (P(L) * P(+|L) + P(～L) * P(+|~L))

P(L|+) = (1% * 90%) / (1% * 90% + 99% * 9%) = 0.091

信息整合工具

贝叶斯公式是信息整合工具，在新的信息出现后，可以重复利用重复整合。

不管怎么样，9%的概率已经远远大于基础概率%1了，你不怀疑吗？在这个基础上，能不能再检测一次

但是我对基础概率有怀疑，为什么要取这个为基础概率？

只是为了说明贝叶斯公式可迭代，因为第二次检测与第一次检测相违背，而不是相辅相成！

II 总结

贝叶斯公式用于判断基础概率P(B)的基础上，在A条件下是B的概率。并可迭代。
P(B|A) = (P(B) * P(A|B)) / (P(B) * P(A|B) + P(~B) * P(A|~B))
B的基础上A的概率 & 非B的基础上A的概率。

7 主观概率:信念数字化

协助例子：

投资公司

I 核心点

主观概率是一种将严谨融入直觉的便捷办法

概率用词的出现，证明了提出的观点是一种主观的观点：可能，肯定，大有机会，等

使用散点图进行描述，可以简单地得出概率。

标准偏差

分析点与数据集平均值的差距。数据集中的大部分点，都会落在平均值的一个标准偏差范围内。

使用主观概率不能保证主观概率的正确性

II 总结

将主观的观点进行数字化描述，方能看出差异

8 启发法:凭人类的天性作分析

协助例子：

小镇的垃圾数据从哪里获得

I 核心点

获取直观的数据，不容易。无法建立统一的计量模型。
启发法，从直觉走向最优。最优化是一种理想的境界。从计算机的角度来说，启发算法可能获得最优解，但不保证。
分析师尽量避免依赖直觉。
如果A的数据无法直观获得，则用B的数据进行分析，换一个角度

II 总结

换一个角度，农村包围城市的算法。
提交的报告，也就是心智模型的转变，需要描述清晰。

9 直方图:数字的形状

协助例子：

使用什么手段提涨薪更有效

I 核心点

数据的图形表示方法不计其数，直方图是其中出类拔萃的一种。

直方图与柱状图有些相似，能迅速而有效地汇总数据。这种小巧而实用的图形量度数据的分布、差异、集中趋势等。

主要是为了介绍一种统计算软件。

II 总结

柱状图看趋势。可能是教程比较老，趋势图不是更好？

10 回归:预测

协助例子：

预测加薪幅度

I 核心点

回归算法

计算机中也经常提到回归算法。

回归线就是最准确地贯穿散点图中的各个点的直线。

回归线：

一些数据会回归到一个平均水平。的确是这样，比如工资、N BA运动员的身高等等。

回归线对于一些线性相关的数据很有用。通常就得出来一个一元一次方程。

II 总结

线性回归函数可以大致用来预测

11 误差:合理误差

协助例子：

加薪谈判的误差

I 核心点

预测就有不准的风险

预测有失精准并不稀奇。不过，如果在进行预测的时候指出误差范围，你和你的客户就不仅能知道平均预测值，还能知道该误差造成的典型偏差，指出误差可以让预测和信念更全面。还需要懂得如何控制误差及如何尽量降低误差，从而提高预测可信度。

千万要对模型假设保持戒心

观察他人的模型时，一定要想一想他们的假设有何道理，以及他们是否忘记了某种假设。

不合适的假设会使模型完全失效，这还算是最好的结果;最坏的结果是具有危险的欺骗性。

预测值与实际值之间的误差，叫做机会误差

对机会误差的分析，是统计模型的核心。也称作均方根误差。

均方根误差

描述的是回归线周围的分布情况，指出两个变量之间的关系。

使用均方差得到了回归线与差值的关系

此时，不同的地方差值很大。所以可以考虑将数据分为不同的区域，使用不同的回归线预测。

均方根误差解释见维基百科

II 总结

回归预测与实际肯定有误差，能解释即可
分组进行回归预测

12 相关数据库:你能关联吗?

协助例子：

RDBMS

I 核心点

跳过，关系型数据库的使用

II 总结

13 整理数据:井然有序

协助例子：

数据整理

I 核心点

数据分析有一个不可告人的秘密——作为数据分析师，你花在数据整理上的时间多过数据分析上的时间。
到手的数据往往算不上井井有条，因此，需要做一些繁重的文字处理工作，使数据格式符合分析的需要。

II 总结

数据按照规则进行提取，使得杂乱的数据变得有规则。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

数据分析

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

数据分析

登录后参与评论

0 条评论

热度