首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

大数据时代更要当心,有些事,数据无法告诉你

"

数据给商家带来很多便利的时候,也成为了这个时代的潮流名词。无论人们谈论用户行为还是属性标签,数据都变得愈加不可或缺。

但海量数据是否就是一剂万能灵药?

作为管理者,必须了解的是:数据是如何生成的,及导致数据变化的因素是什么。因为说到底,数据不会说话,人们需要在分析前练就一双“火眼金睛”。

"

文/萨姆·兰斯博撒姆

当波士顿学院的一群学生开始对UFO目击报告进行数据分析时,他们发现位于美国华盛顿州的国家UFO报告中心自1974年开始跟踪UFO的动向以来,收到的UFO目击报告大幅增加。

然而,这并不意味着天外来客的数量越来越多,而是因为该中心刚成立时,人们必须拿起电话来报告自己的发现,互联网普及后,人们只需上网填写一张表格,因此,UFO目击报告的数量急剧上升。

再看UFO以外的更多例子,我们发现数据采集成本的降低带来了多方面的价值。我们比以前拥有了更多数据。

然而,管理者必须清楚地了解数据是如何生成的,以及这一生成过程会如何影响数据的价值。在可以获得的数据越来越多时,管理者应该留意哪些样本出现偏差?

以下四点做法值得采纳:

1

了解数据的来龙去脉

今天的企业在分析从网络论坛获得的丰富且低成本的数据时,必须慎之又慎。

它们必须考虑到,通过社交媒体了解到的顾客情况,可能与以往电话或书面调查的数据所反映出来的趋势并不吻合。

社交媒体固然为消费者活动提供了特别详细的数据,能够让企业获得前所未有的海量个人信息。然而,并不是每位顾客都使用社交媒体,同时出于刻意塑造自身形象的需要,也不是每个人在社交媒体上都能做到坦诚。

管理者必须了解自己使用的数据是来自哪里,以及数据生成之后可能会因什么而发生变化。

2

承认数据数量的增加并不代表数据质量的提升

庞大的数据量提供了一种虚假安慰,让管理者误以为自己掌握了“更好的”数据,而其实只不过是先前数据的权重增加。

更糟糕的是,数据量的增加会让样本偏差更深地隐藏在海量信息中。管理者在试图获取更多数据之前,需要对额外数据将产生的新信息进行评估,可以先开展小规模试验。

他们需要知道从数据中能够得到什么,以及如何以低成本达到这一目的。

3

认识到旧数据源的不完善

旧数据源自身也存在样本偏差。以上文提到的UFO目击报告为例:互联网普及之前,人们只能通过电话与国家UFO报告中心联系。由于外州人不得不考虑长途电话的成本,大多数报告都来自华盛顿本州。

无论是新数据源还是旧数据源,对它们的了解都需要时间。经验告诉我们,新旧数据源各自都存在样本偏差,同时采用它们可以相互取长补短。

4

记住直觉仍然很重要

判断样本是否有偏差,归根结底是人类的工作。数据本身不会说话,我们需要自行识别缺失的部分。

尽管人工智能和机器学习正在兴起,但我们仍然需要人类的专业知识来纵观全局,确定某个数据源反映了全局的哪个部分。

管理者应当问自己:“对于业务,有哪些是数据无法告诉我们的,但我自己很了解的?”

随着数据分析在企业内部日益普及,越来越多的人需要在分析结果前练就一副“火眼金睛”。

要做到这一点,管理者必须将两种不同类型的知识结合起来:

一是对数据生成过程背后细节的了解,这关乎数据的代表性;二是对业务的宏观把握和总体认知。

【作者简介】萨姆▪兰斯博撒姆,波士顿学院卡罗尔管理学院(Carroll School of Management,Boston College)信息系统学副教授。

来源:商业评论精选

版权为原作者所有,图片来自网络。

其他平台转载请注明原出处。

【版权声明】“RMC律满猎头”所推送文章及图片,我们都会注明作者和来源。部分文章推送时未能与原作者取得联系。若涉及版权问题,烦请原作者及时联系我们,我们会在第一时间处理或撤销,谢谢!

RMC律满猎头

=微信号:RMC168=

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190203B06P8K00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券