大数据讨论，让数据“发声”

文章来源：企鹅号 - 大数据观察

大数据观察

了解大数据，关注大数据观察吧！

每个想了解最新大数据资讯的人，都关注了我

文 / 数据君

当数据的数量无比庞大时，如何选择样本呢？

有人提出有目的地选择最具代表性的样本是最恰当的方法。1934年，波兰统计学家耶日.奈曼指出，这样只会导致更大的漏洞。

事实证明，问题的关键是选择样本时的随机性。

统计学家们证明：

采样分析的精确性随着采样随机性的增加而大幅提高，但与样本数量的增加关系不大。

虽然听起来很不可思议，但事实上，一个人对1100人进行的关于“是否”问题的抽样调查有着很高的精确性，精确度甚至超过了对所有人进行调查时的97%。

这是真的，不管是调查10万人还是1亿人，20次调查里有19次都能猜对。

为什么会这样？原因很复杂，但是有一个比较简单的解释就是，当样本数量达到了某个值之后，我们从新个体身上得到的信息会越来越少，就如同经济学中的边际效应递减一样。

认为样本选择的随机性比样本数量更重要，这种观点是非常有见地的。

这种观点为我们开辟了一条收集信息的新道路。通过收集随机样本，我们可以用较少的花费做出高精准度的推断。

因此，政府每年都可以用随机采样的方法进行小规模的人口普查，而不是只能每十年进行一次。

事实上，政府也确实这样做了。

例如，除了十年一次的人口大普查，美国人口普查局每年都会用随机采样的方法对经济人口进行200多次小规模的调查。

当收集和分析数据都不容易时，随机采样就成为应对信息采集困难的办法。

很快，随机采样就不仅应用于公共部门和人口普查了。

在商业领域，随机采样被用来监管商品质量。

这使得监管商品质量和提升商品品质变得更加容易，花费也更少。

以前，全面的质量监管要求对生产出来的每个商品进行检查，而现在只需要从一批商品中随机抽取部分样品进行检查就可以了。

本质上来说，随机采样让大数据问题变得更加切实可行。

同理，它将客户调查引进了零售行业，将焦点讨论引进了政治界，也将许多人文问题变成了社会科学问题。

主题 |数据发声

插图 | 网络来源

作者介绍

数据君：）

了解大数据，关注大数据观察

部分图文来自网络，侵权则删

我想给你一个理由继续面对这操蛋的生活

相关快讯