大数据和“数据挖掘”是何关系？

文章来源：企鹅号 - 科技喇叭

从很久以前到现在，我们获取数据的能力以及分析数据的能力都是很有限的，这就导致，很多数据我们是无法在我们需要的时候采集到的，举一个例子：人口普查。近代美国要求10年进行一次人口普查，但是随着人口的增长速度越来越快，到后来统计出国家的大致人口都需要13年了。因此不能采用普查。因此我们必须使用另一种经典的方法，并以此方法达到通过获取少量数据就能够分析大规模问题的目的——抽样。我们都知道抽样调查是有各种各样的要求和准则，而且合理性也经常不如人意，但是在之前获取数据难度很大的前提下（只能亲自去看，一个一个人工考察），这种方法的确赋予了我们处理大规模数据的能力：从里面完全随机的（我们都知道这是不可能的）选择一些正确的（数据完全正确也是不可能的）数据进行分析。数据可以是很简单的，例如长度，温度，时间，重量等等；也可以是很复杂的，一本书，一张图，一个石头。之所以说这些数据复杂，是因为它们是由我们提到的诸如重量长度等等简单的数据构成的。那么，如果我们要分析石头的话，将会变得很困难——因为要处理的数据种类实在太多了，各种数据之间还存在这样那样的影响。这让我们计算能力严重不足的祖先们（只有笔和算盘，各种函数和公式都么有发明。）无比的抓狂。因为等我们用简单粗暴的方式算出来了以后，数据的有效期很可能已经过了（参见前面说的人口普查数据）。因此我们又发明了一个牛逼而经典的方法——建模。我们采用几个对描述这个对象很关键的数据来代替所有的数据，这样，计算量和计算难度都有客观的改善。

发表于: 2018-01-312018-01-31 09:56:30
原文链接：http://kuaibao.qq.com/s/20180131A09PXO00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

大数据和“数据挖掘”是何关系？

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐