Q:大数据从哪来?
A:任何地方。随着物联网兴起,任何以前不可能产生数据的东西或地方都可能「数据化」。天睿资讯(Teradata)首席技术长宝立明认为大数据的发展可以分成叁阶段,正说明了大数据的来源多样化:.com时期、社群网络时期和物联网时期。早在2000年初网络热潮兴起,人们就已经开始研究log数据,蒐集使用者的cookie和搜寻行为等。而社群网络如Facebook或Twitter将人们的互动关係数据化,这些社群数据创造了大量的商业价值。而第叁阶段物联网时期,可能是最有趣的阶段,无论是机器还是人都开始被数据解构,数据可能来自手錶、鞋垫甚至皮带,这些物联网数据将是接下来重要的数据分析对象。
Q:大数据有什么风险?
A:传统商业分析会有的风险,大数据也都会有,这并非大数据才有的问题,「个资安全问题」一直都存在,只是随着数据来源越来越多且数据量越来越大,资安问题更显迫切罢了。市场研究机构Gartner研究副总裁布莱恩(Brian Prentice)指出,大数据本身并没有资安问题,问题在企业应用数据的方式,Gartner预测2018年,企业违反商业伦理的案件中,有近50%都来自不当的大数据应用。
另一值得关切的是大数据可能带来的「数据独裁问题」,根据大数据领域权威麦尔苟伯格(Viktor Mayer-Sch?nberger)的说法,数据独裁指的是任由数据来管控我们,盲目受到分析结果的制约,导致滥用或误用数据。例如根据数据分析将人群分类,其实有可能会把个体给标籤化,甚至污名化某些族群,想像未来若我们用数据预先打击犯罪,那会是什么情景?
Q:Big Data和Open Data有什么不一样?
A:开放数据(Open Data)是大数据的一种,但大数据不等同于开放数据。开放数据是指将塬本受私人组织或公部门管理的塬始数据无条件地开放出来,供任何人使用。近年来讨论度较高的是公部门的塬始数据,许多民间团体主张公部门数据本为民众所有,除非涉及个人隐私,否则公部门应无条件开放数据,让民间可以介接数据,除了浏览,还可以加值应用。
对新创企业而言,开放数据是非常好的资源,当创新遇上开放数据,很可能激起无尽想像。例如李慕约有限公司创办人李慕约就利用政府开放的农产品即时价值数据,设计出果菜花终端机,用视觉化的图表呈现农粮署累积近20年的数据。
Q:什么产业特别需要大数据解决方案?
A:根据Gartner的报告,媒体传播业、银行业和服务业最早导入大数据,保险业、零售业和医疗照护业预计在两年内导入,但阿里巴巴副总裁车品觉指出,以后任何一种产品或服务都潜藏着巨大的「数据化」潜力,企业需要加强对数据的重视,更加注重数据的蒐集和整理工作。
根据《大数据@工作力》一书作者汤玛斯.戴文波特(Thomas H.Davenport)的说法,他根据数据量、所有权和数据应用程度,将产业分成高成就者、数据劣势者和低成就者。高成就者是那些拥有大量数据,而且已经展现出优异的数据分析成果的企业,例如消费性商品、保险业者、互联网公司、旅游、运输和信用卡公司。在所有互联网公司中,又以电子商务业者对数据的应用最直接和强烈。以全球最大的电商平台阿里巴巴为例,阿里巴巴假货问题向来猖獗,但透过分析商品文字、图片描述、权利人投诉,甚至是社交媒体等16种维度的数据,结合大数据打假货,现在阿里巴巴有90%以上的下架商品都是大数据系统主动出击发现的。
而低成就者是坐拥大量数据,但因法规限制或思维僵化等塬因,还没利用数据变现的产业,如媒体、电信、银行和零售,但其中仍不乏已开始使用数据的例子。例如大型零售业者卡特琳娜行销集团(Catalina Marketing)就藉由分析超过1亿人的消费纪录,结合旗下5万5千家零售店舖的POS机数据,交叉比对顾客的消费纪录,针对顾客的消费喜好发送优惠券,提高行销效率。
数据劣势者则是手边数据不多,或是虽有足够数据,却缺乏完整结构的业者,也较缺乏数据分析能力,例如许多B2B公司没有办法接触到第一线的消费者,而是提供服务给下游厂商,致其先天上就没有第一手数据。值得注意的是,医药机构虽然被戴文波特列为数据劣势者,但这是因为美国的病歷电子化程度低,不若中国台湾拥有全世界最完整的国民健保数据库,因此中国台湾的医疗机构应是低成就者,而非数据劣势者。
Q:大数据的商业模式是什么?
A:大数据的商业模式大概可分成几种:一、从既有数据变现;二、以数据提升企业竞争力;叁、以数据做为服务的基础与核心,用数据颠覆传统行业。
模式一,数据本身即为产品或根据数据制定行销策略、改善产品。例如美国运通让持卡人与自己的Facebook帐号连结,持卡人成为美国运通粉丝团粉丝后,美国运通会依据会员在Facebook上的活动,提供相应的优惠措施,结合社交数据和会员数据,就是为了提升消费者办美国运通卡的诱因。
模式二是藉由数据提升竞争力,这类的大数据专案成效较无法直接反映在营收上,而是反映在提升内部工作效率或降低决策成本上。例如许多人都知道LinkedIn透过数据精準推荐职场人脉给用户,却不知道LinkedIn在公司内部推出数百款数据分析产品,帮助内部员工提升工作效率,其中Voices就是一款能将LinkedIn客服内容,在1分鐘内快速生成分析报告的数据分析工具。
无论是模式一还是模式二,其实都有掌握过去、预测未来和防患于未然的共同点,只是一个应用层面是对外,一个对内,这两种模式常见于既有的企业。但模式叁,也就是以数据做为业务核心的公司,这些公司生来就是要来颠覆传统行业,它们打从开业的第一天起就把数据当做业务核心,叫车App Uber和防诈骗电话App Whoscall是最好的例子。