大数据、云计算、智慧城市……近年,一堆和数据有关的词汇被频繁提及,大数据逐渐渗透到大众生活里。企业纷纷宣称自己的大数据能力很强,但网民被推送的“精准广告”常常并非所需而被当做垃圾信息处理;手机上,很多很炫的APP应用吸引用户的同时,用户却无奈的发现自己的通讯,短信,位置信息被对方强行采集。
中国企业的大数据能力究竟如何?大数据研究的前景如何?大数据方便了生活,也带来了隐私和安全风险,其边界在哪里?就国内大数据和统计学行业热点问题,让我们听听北京大学光华管理学院商务统计与经济计量系教授王汉生怎么说。
企业数据分析能力并无显著提升,大数据概念有泡沫
最近几年,大数据概念炙手可热,几乎一夜之间所有的企业都在谈大数据。您如何看待大数据这个概念?
王汉生:这不是一个严格的学术定义。它更像是是一个口号,一种公共宣传的需要,随着技术的进步,有一定的实质性变化。例如:产生了新的数据类型,达到了一定的量级。但是也有不少被神化的地方。。比如原来金融投资的数据就很大,也在实际应用中有体现,只不过当时没有人关注。但是这个概念有一个好处,就是在全行业范围内让很多人开始关注数据分析。
您不认为大数据背后的企业数据有实质变化。但现在很多企业都宣称其数据已经达到一个新的量级。
王汉生:有些企业以前是做物流的,有的是做3C的,现在都在赶时髦,强调自己是做大数据的,但其实他们的数据分析能力惨不忍睹。过去是什么样,现在还是什么样。当然也不排除其中有不错的企业,自始至终注重从数据产生价值。
您认为大数据带来最大的挑战之一是产生新的数据类型。怎么理解这句话?
王汉生:原来只有单纯的数字才算数据,现在凡是可以记录的都能算数据,包括文字,声音,甚至网络关系。以前在数据分析中只有对个体的研究,现在可以通过分析网络结构和社会关系,把人与人联系起来。因为分析个人特征,就可以预测个人的行为,比如银行会在意客户会不会赖账,医生会在意家族病史等等。而网络结构可以通过分析朋友的特征来分析某个人的行为,并且让信息流通起来了。而我们要分析这些数据,需要新的模型,新的算法,甚至新的储存结构,这都是挑战。
电商利用大数据空间有限,大数据“金矿”在传统行业
现在国内宣称大数据能力最强的是电商行业。有报道说电商现在可以做到用户一登录,他们就能判断用户需要什么,从而提前发货,将用户想买的东西送到。现实中有实现的吗?
王汉生:这是很难实现的。对于极小部分购买行为非常有规律的人,他们的购物需求是可预测的。但是在多数情况下,消费者的购买行为是高度不可预测的。个性化推荐存在了这么多年,商品推送变为顾客的购买行为的转化率一般也就百分之几,如果能到百分之十已经是非常高了。毕竟数据分析只是描述市场和消费者的行为,并不会帮助人做决定。
国内电商现在利用大数据主要还是在商品页面的个性化推送方面。您认为做得如何?
王汉生:页面推送的成本非常低,不涉及物理上的搬运,它的边际成本几乎是零。这方面国内做的越来越好,个别情况下转化率可以做到百分之十。这个过程中不仅仅涉及算法精确问题,还要考虑网站整体的服务质量。
未来国内电商进一步提升利用大数据能力的空间有多大?
王汉生:大数据在传统行业可能更有所为,原因是电商在这方面已经竞争的非常激烈,数据利用也算相对成熟一些。但是在传统行业,例如:汽车、制造、金融、电信等,还利用很少,相对可以提升的空间可能更大。另外一个很大的大数据的利用方向是营销相关的,为中小企业解决广告投放困难的服务。
怎么利用大数据帮助中小企业解决广告投放难题?
王汉生:中小企业做在线营销优势不大,一个只面向方圆几公里内顾客的咖啡厅没必要到门户网站或者电视台上去做广告,小企业也买不起这样的广告。他们需要精准定位的广告。现在搜索引擎广告也只能精准到省一级的广告定位。但也只有那些有一定规模的中小企业才可以投放面向这个范围的广告。而利用LBS(基于位置服务)工具产生的大数据进行定向营销的空间很大。但现在的问题是,基于用户位置的营销平台越来越多,中小企业筛选成本很高,如果有企业能整合这些营销平台提供给中小企业主相应的服务,那就会是非常有价值的。但这项工作涉及的数据很庞大,只有使用机器人才能有效完成。
国内金融业大数据能力亟待提升
您曾表示,金融业务对数据的分析要求不断增高。大数据分析对金融行业有什么影响?
王汉生:金融行业可以利用大数据分析的空间非常大,尤其是小微信贷。快速、无抵押、高风险是个人小微信贷的特点。这就要求企业一开始对个人数据的采集就要足够准确,建立良好的征信模型进行快速判断。这就会涉及很多的数据,包括对方过往的还款记录,电话账单,甚至QQ空间里提到的内容。
国内的金融机构在利用大数据分析上有哪些改进空间?
王汉生:目前这方面确实存在一些困难,比如我在美国用了一段时间招商银行信用卡,它推送给我的广告还是北京的,比如去万达看电影之类的。如果它能够推送一些美国奥特莱斯的广告也许我就会去了。这方面银行的数据分析就比互联网公司差了很多,亟待改进提升。
互联网与传统银行合作的空间有多大?
王汉生:只要商业利益能谈好就一定有合作的空间。现在银行的征信主要还是面向企业和面向个人优质客户,很少有面向更加低端的普通人。其实这就是一个“瘦田无人耕,耕开有人争”的局面。如果有一天我发现你某方面做得很好,要么就是我要比你做得更好,要么就是我不让你做了。
享受大数据便利需要让渡一定隐私空间
尽管大数据潜力巨大,但也给个人和企业的信息安全带来风险。有观点称,信息安全问题已经成为产业发展的障碍,在大数据时代,隐私信息将“无处遁形”。对此你持何观点,大数据分析是否会侵犯个人隐私?
王汉生:现在我国,甚至全球范围内,法律对隐私保护的界定是不够清晰的,缺乏统一认识的。例如网民在电商浏览商品的记录,是网民的,还是电商的,还是网民和电商共有的?现在无定论。欧洲对个人隐私这方面的监管是非常严格的,但这也限制了欧洲的互联网企业发展。美国对这方面的监管相对松散一些,中国也还在学习摸索的阶段。但隐私保护这一刀切在哪里还没有结论,管的太松,网民隐私得不到保护;管得太紧,企业的创新受限,行业发展受限。所以,我们享受了互联网带来了便利,也需要让渡一些隐私的空间。但是,具体需要让渡多少,需要国家、企业、个人的逐步理解沟通。
大数据环境下的隐私担忧,主要还是怕自己使用移动互联网后,自己的身份、生活被识别。现在数据分析对人的识别可以准确到什么程度?
王汉生:我不确信中国在这方面的这种分析能力。根据公开的文献,在美国只要提供邮编、性别和出生年月,87%的人就可以被独立识别出来。目前企业可以通过一个人的购买行为,识别到独一无二的一个虚拟人,企业可以知道这个虚拟人的很多喜好,但这个人叫什么名字,做什么的,一般情况下,企业还是不知道的。普通的企业,也没有动力去知道。但如果有好事者,把电商获取的数据和其他数据对接,就能识别到具体的人了。所以隐私保护还是非常重要。
现在智能手机安装的软件,不少都要求获取大量权限,有的甚至要求有监听通话和短信的权限,这些软件对个人资料的大范围收集是有必要的么?
王汉生:我不了解这些行为背后的动机。据我对行业的了解,大多数企业拿回去,啥也干不了。一个可能的猜测:就是数据存储太便宜,能存的都存下来,希望将来有用。当然,这是我的一个猜测。
针对大数据分析而言,应该如何改进才能保护个人隐私?
王汉生:考虑一个例子。例如:医院。一方面,医院希望既保护病人的资料。另一方面,医院希望能将各种数据应用于科学研究中,这就要求医院对第三方开放原始数据。这就要求对原始数据做模糊化处理,一方面切断从原始数据识别具体个体的可能,另一方面保证科学分析,估计重要参数(例如:回归系数)的可能。这有可能实现吗?我认为是有可能的,但是还缺乏相应的方法,需要相关统计学研究。
文章部分内容选自《新京报》