大数据观察
了解大数据,关注大数据观察吧!
每个想了解最新大数据资讯的人,都关注了我
文 / 数据君
当数据的数量无比庞大时,如何选择样本呢?
有人提出有目的地选择最具代表性的样本是最恰当的方法。1934年,波兰统计学家耶日.奈曼指出,这样只会导致更大的漏洞。
事实证明,问题的关键是选择样本时的随机性。
统计学家们证明:
采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。
虽然听起来很不可思议,但事实上,一个人对1100人进行的关于“是否”问题的抽样调查有着很高的精确性,精确度甚至超过了对所有人进行调查时的97%。
这是真的,不管是调查10万人还是1亿人,20次调查里有19次都能猜对。
为什么会这样?原因很复杂,但是有一个比较简单的解释就是,当样本数量达到了某个值之后,我们从新个体身上得到的信息会越来越少,就如同经济学中的边际效应递减一样。
认为样本选择的随机性比样本数量更重要,这种观点是非常有见地的。
这种观点为我们开辟了一条收集信息的新道路。通过收集随机样本,我们可以用较少的花费做出高精准度的推断。
因此,政府每年都可以用随机采样的方法进行小规模的人口普查,而不是只能每十年进行一次。
事实上,政府也确实这样做了。
例如,除了十年一次的人口大普查,美国人口普查局每年都会用随机采样的方法对经济人口进行200多次小规模的调查。
当收集和分析数据都不容易时,随机采样就成为应对信息采集困难的办法。
很快,随机采样就不仅应用于公共部门和人口普查了。
在商业领域,随机采样被用来监管商品质量。
这使得监管商品质量和提升商品品质变得更加容易,花费也更少。
以前,全面的质量监管要求对生产出来的每个商品进行检查,而现在只需要从一批商品中随机抽取部分样品进行检查就可以了。
本质上来说,随机采样让大数据问题变得更加切实可行。
同理,它将客户调查引进了零售行业,将焦点讨论引进了政治界,也将许多人文问题变成了社会科学问题。
主题 |数据发声
插图 | 网络来源
作 者 介 绍
数据君:)
了解大数据,关注大数据观察
部分图文来自网络,侵权则删
我想给你一个理由 继续面对这操蛋的生活
领取专属 10元无门槛券
私享最新 技术干货