首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

还在以为大数据就是excel统计?别被骗了

大数据的概念由来已久,早在上个世纪,美国的一个未来学家,便提出了大数据的概念。在舍恩伯格及库克耶编写的《大数据时代》一书中,大数据被定义为不用随机分析法(抽样调查)这样的捷径,而采用全量模式进行分析处理的数据。曾经问过一个专门做大数据开发的朋友,大数据到底多大的数据算是大数据,朋友微微一笑说道,TB级别起步吧。

网络配图

我们可以这样来比较一下,我们使用的普通PC电脑普遍都是1个T差不多的,而手机呢,普遍时128G,256G的样子,TB级别起步,那就是N台电脑的容量,手机就更不用说了。这样的数据级别,你还以为这只是一个简简单单的excel统计吗?

网络配图

当今大数据的发展,开始于Google公司的著名的三篇关于大数据的论文,此后,大数据的发展也开始引入国内,最早用于阿里、腾讯、百度这样的大型互联网企业。大数据的处理也就是多台计算机共同承担对数据的存储和计算任务,基于大数据,我们可以对用户的画像进行描绘、对用户的行为进行分析、对其他各行各业都可以进行分析,比如前几年比较火爆的炒股分析之类的软件,都是基于大数据量的运算,之后再对模型进行建立、计算,从而得出分析结果,对未来的事件做出预测。

网络配图

有人可能比较好奇,哪里来的那么多的数据进行分析?而且怎么样进行分析的呢?数据量的东西嘛,这个收集起来是很容易的。举一个例子来说,一个人平时上网,看小说、看视频、打游戏、聊天、购物,都会产生许许多多的行为数据,计算机已经将你所有的上网轨迹,全部收集起来,作为对你这个人分析的基础数据。而这些东西呢,在业内称之为行为日志,之后,再有专门的日志收集系统将这些日志数据进行收集,汇总到一个计算集群,何所谓集群呢,通俗来说就是许多台电脑连接在一起,他们共同完成一项任务。收集起来之后,再由这些计算集群进行过滤、计算,最后得到的数据再由数据模型工具来分析这些数据,应用数学的知识,对数据进行建模、归类等,从而得出最后对数据的结论。这,就是大数据分析。

网络配图

而得出的结论可以应用再各行各业,像前面我们提到的预测、或者是用户的个性化推荐(业内首推的就是淘宝的千人千面),以及像国外比较成功的应用在打击罪犯方面的案例等等。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190821A0PPL000?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券