首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

大数据和“数据挖掘”是何关系?

从很久以前到现在,我们获取数据的能力以及分析数据的能力都是很有限的,这就导致,很多数据我们是无法在我们需要的时候采集到的,举一个例子:人口普查。近代美国要求10年进行一次人口普查,但是随着人口的增长速度越来越快,到后来统计出国家的大致人口都需要13年了。因此不能采用普查。因此我们必须使用另一种经典的方法,并以此方法达到通过获取少量数据就能够分析大规模问题的目的——抽样。我们都知道抽样调查是有各种各样的要求和准则,而且合理性也经常不如人意,但是在之前获取数据难度很大的前提下(只能亲自去看,一个一个人工考察),这种方法的确赋予了我们处理大规模数据的能力:从里面完全随机的(我们都知道这是不可能的)选择一些正确的(数据完全正确也是不可能的)数据进行分析。数据可以是很简单的,例如长度,温度,时间,重量等等;也可以是很复杂的,一本书,一张图,一个石头。之所以说这些数据复杂,是因为它们是由我们提到的诸如重量长度等等简单的数据构成的。那么,如果我们要分析石头的话,将会变得很困难——因为要处理的数据种类实在太多了,各种数据之间还存在这样那样的影响。这让我们计算能力严重不足的祖先们(只有笔和算盘,各种函数和公式都么有发明。)无比的抓狂。因为等我们用简单粗暴的方式算出来了以后,数据的有效期很可能已经过了(参见前面说的人口普查数据)。因此我们又发明了一个牛逼而经典的方法——建模。我们采用几个对描述这个对象很关键的数据来代替所有的数据,这样,计算量和计算难度都有客观的改善。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180131A09PXO00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券