我们看一下对于大数据相关的项目中,我们能做什么,这个话题企业界比较感兴趣,在学术界可能谈论得比较少。一般来说,大数据战略目前有三个主要的关键节点:系统轻载、应用闭环、数据变现。
第一个节点也是最重要的节点就是系统轻载。大家知道从一亿条数据中查询一条数据和从一万条数据中查询一条数据是截然不同的两种速率,庞大的历史数据在线,已经严重影响了系统的效率、稳定性,极大地增加了维护成本和系统开销。特别是现在的电商和银行,而大部分收集到的历史数据,因为其存储的不可(快速、方便)访问性,变成了数据化石。
在GIS领域里面,基于位置服务的企业和行业也遭遇了这样的问题。比如电信行业的信令数据,一个市的数据,每天都以TB计,而目前最大的问题,就是收集完了之后,就存储成为了“数据化石”。
大数据战略的第一个节点,就是要改造底层的架构,轻载在线的热数据,而将以前离线的化石数据变成所谓的近线的“温”数据。并且对于这些近线数据提供有效、高速、便捷的访问技术。
那么要进行这样的转变,在架构设计和选择的时候需要应对下面这样的一些挑战和思考
解决这些问题,最简易可行的方法,就是大数据技术中的分布式集群架构,包括分布式的存储、分布式的运算等。
第二个节点应用闭环,又分为两类,一类是指对生产系统中在运行过程产生的数据进行收集和存储、提出分析建议和进行改进。当你访问网页时在每个页面停留的时间、鼠标的每一次点击都会被收集起来专门进行数据优化,你会发现通过这样一个优化,对你的推荐越来越精准。
第二类是指在数据项目中,会跨越多个学科对数据进行收集、处理和分析,这些数据除了高度结构化的单一学科数据以外,还有大量的非结构化数据,包括了文档、图像、视频、音频,甚至是物理实体,它们跨越多个学科,并且以URL的方式,关联到其他的各种看似不相关的数据资源。形成数据的闭环。
这也是数据转换为价值的一个具体过程,不断的收集数据,并且也要有足够的分析能力,让数据变成知识和策略,发挥出应有的价值。
最后一个环节就是数据变现。有人会问数据变现是不是传统的卖数据的概念,它不仅是一个传统的数据交易,它包括了行业数据交换、数据产品生产、专业分析服务、软件人才和价值,还有未来的社会价值,比如智慧高效的决策管理、行业智库、领域主导话语权。
最后来谈一下大数据中的一些故事与思考。图14表示的是两个城市之间的“交流”,红色的是佛罗伦萨,蓝色的是比萨。意大利的几所大学的教授在征得车主同意的情况下,给大约有5万多辆家用轿车安装了匿名收集GPS信息的设备,历时两年得出了这样一张图。
图14 两座城市之间的“交流”(图片来源于互联网)
之后他们做了一个非常有意思的分析,他们发现不需要刻意去分类就把人类分成了两类,一类人称之为归客,他们基本上是两点一线或者三点一线地行动;第二类人的行径呈星型,他们比较喜欢旅游或者经常出差,这一类人称为探索者(见图15)。分类的标准设在100公里,是指在一定范围内,一个人的行动轨迹如果超过了100公里,就更可能被归类为探索者。这篇论文最后写到的一句话是“人类最强大的传播,比如某种病毒感冒,如果你是一个归客,可能与你关系不大,但如果你是一个探索者,你可能会把病毒传播到更远的地方去”。
图15 归客与探索者
大数据分析也会存在陷阱,这里有一个例子可以说明。中央电视台曾经播报了东莞扫黄的新闻,然后百度就实时地推出了很强大的百度迁徙大数据——分析了哪些城市去往东莞的人数比较多。
那么我们来看一下真实的数据对比。下图(左)是2月9号央视报道之后,百度迁徙大数据显示的去往东莞的人口出行轨迹,下图(右)是央视报道之前的轨迹,这两幅图几乎没有太大变化,这就是大数据给我们的陷阱。我们一眼看去,似乎能从大数据中找到很多规律,实际上它欺骗了你,在大数据背景下或者以亿为单位的数据量下面,几万甚至几十万的数据变化在分析时其实看不出来。
百度迁徙大数据(左)与央视报道数据(右)
而下面也是当年风投圈一个很有意思的段子:用PPT来找投资的时候,很多公司会自称采用了大数据,但实际上是把全部日志,不管有用没用都采集起来而且从来不删。
最后给大家的是一个小小的鸡汤:下图是NASA当年把人类送上月球使用的计算机,其中最强大一台计算机的内存是8KB,也就是说当年这些科学家所使用的计算机内存和处理器的能力全部加起来还比不上现在的一部手机,而NASA的工程师和科学家们,就是用这样一台手机,把人类送上了月球——所以,最强大的不是设备或者大数据这门技术,更强大的其实是人类的智慧。
领取专属 10元无门槛券
私享最新 技术干货