首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

机器学习、大数据、云计算会端掉量化宽客的饭碗吗?

现在每个行业、每个人都在说大数据、云计算,似乎有了这个东西就可以大把捞钱无往不利。实际上,可能绝大部分人并不清楚到底什么是大数据、云计算。所谓大数据,其实就是很多很多的数据,以及处理这很多很多的数据的方法。这更多的是一个纯粹的计算机技术方面的概念。数据量的变化,会导致存储和加工方式的改变。从计算机诞生之日起,一直到现在,数据的存储和处理基本上都是在单台机器上上完成的。当数据量不断增长时,应对的主要方法一是换存储量更大,性能更好的机器,二是缩减数据,把所谓的冷数据(例如五年前的交易数据)导出到磁带库里。在这过程中,也有人提出了分布式存储、并行处理的方法,有好的产品,比如td的数据仓库,也有不好的,比如...但这些产品都有一个特点,技术保密,价格昂贵。进入互联网时代,搜索引擎诞生了。搜索引擎要处理的网页数据的增长是十分迅猛的,很早以前就已经到了pb级别,这是传统行业不能比的。这种数据量,用传统方法处理代价非常高,甚至是无法处理,基本上当时没有一款主流数据库敢说自己能高效处理pb级别的数据,td的数据仓库也就是tb级别。为了应对这个问题,google开发出了一种分布式的数据存储和加工方法,这种方法可以使用廉价机器组成集群,还能保证可靠性。并且,最重要的是,Google把他的核心算法写成论文发表了。之后诞生了开源的Hadoop,然后,pb级别的数据有了廉价的处理方法,再然后,全世界都开始大数据了。而所谓的云计算,可能更多的是一种计算服务方式的概念。他的几个要点是,可分配计算资源,虚拟化,可伸缩,等等。数据挖掘算法本质上是统计学方法以及一些数学模型,这些算法应用前,都需要对目标数据进行预处理,去除噪声,提取高关联度属性,或者做一些数学变换等等。算法本身对数据维度的大小也是有限制的,并不是越多越好。大数据对数据分析来说意味着什么可选择的数据变多了,同时也要花费更多的时间来去除无用的数据。对于数据分析来说,最重要的,还是合适的模型。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180206A0LWA400?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券