这是我最近在想也没确切的想出来的问题。那我来看看从应用层面来说,看看哪里会用到数据分布吧~
目前的业界对于数据的应用,主要分成两大类:
一类是由数据分析构成的针对已有数据提取信息并整合信息给出推荐;
一类则是由建模构成的预测未来会发生什么的推荐;
针对数据分析构成的应用场景
以统计实验为一项重要的实验研究,广为人知的就是AB testing了,当然还有一些场景需要用判别分析(Discriminant Analysis)来推演;
对于AB testing,需要知道的重要信息就是发生的概率P,而需要预测事情发生的概率,那就需要知道该事件的分布情况,但是常见的AB testing入门应用,就是计算CTR(click trough rate),点击或者不点击,标准的binomial分布了;那其他分布,则需要用拟合优度(goodness-to-fit)来分析了.
针对于由建模构成的应用场景
提前预知数据分布,将运用在以下几个情况,此处通过建模顺序来梳理:
1. EDA (Exploration Data Analytics), 通过简单进行数据探索,看一看他们的分布情况是是否符合预期的商业角度. 例如收入是不是Longtail Distribution 等等.
2. 基础的统计建模,是基于对数据分布的假设. 例如最基本的线性回归模型, 误差项(ε)应呈正态分布;
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。