大数据时代以其“4V”(即Volume体量大、Variety类型多、Value价值巨大、Velocity处理速度快)的神力不断影响和改造着世界,作为一种全新的思想和手段,新媒体大数据、舆论大数据,营销大数据、公关大数据和广告品牌大数据等各个领域的各类大数据,澎湃汹涌地推动着传媒业从量变到质变,开辟出了传媒业转型发展的新机遇。本期由清华—青岛数据科学研究院主办、清数大数据产业联盟承办的“应用·创新”系列讲座,邀请到清华大学新闻与传播学院的沈阳教授。他是横跨信息管理、新闻传播和计算机科学三个专业的教授,多个部委的专家组成员,清博大数据的早期创始人,具有丰富的新媒体投融资、数据分析和新媒体战略经验。
后台回复关键词“清华大数据”,下载演讲PPT。
今年5月24日数据派发布过一期沈老师主讲的“应用·创新”系列讲座之《数据与新媒体》,本场讲座沈老师演讲的主题“大数据驱动下的媒体业转型”对上一期的内容做了补充和升级,相信大家会从中得到更多的新视角和新启示。
大数据连接论的三大要素
首先,大数据的终极目标是连接。人类社会从早期的语言的思想的连接,慢慢过渡到纸质的连接,再到广播电视的连接,再到PC互联网的连接,如今是移动互联网的连接,这种连接的频度不断提升。如果把连接看作人和事物、人和人之间的某种特定的相关性,这种特定相关性从整个人类的角度来说是越来越强的,它不仅是一个手段,很可能也是一个最终目标。
其次,连接有量的变化,其中会因为量变而产生一系列不同的效应。如果你连接了一个人,那有可能是你的家人;当你连接了10个人,就达到了社会学家所说的跟你关系最密切的初级群体,由此可以推算出你的社会地位,你的财富,就是你最好的六个朋友的平均值;当你连接到100个人,就接近了邓巴数,即150定律(Rule Of 150),该定律是根据猿猴的智力与社交网络推断出:人类智力将允许人类拥有稳定社交网络的人数是148人,四舍五入大约是150人,这是与你能亲密互动人群的上限;当你连接到1000个人,就达到了凯文凯利提到的社区启动的条件,倘若这1000人恰好都是你的忠粉,你就可以靠他们养活自己;当你连接到10000个人,偶发效应会特别强,每次发布消息后都会反馈出想象不到的结果,而且这些人的朋友圈发布的消息也会给人很多意想不到的帮助。比如,九寨沟地震前,打算去九寨沟旅游的人因为在朋友圈刷到一张九寨沟人山人海的照片而取消行程,幸而逃过一劫,与地震擦肩而过。
当你连接到十万人会发生什么,在微信里面显示为100000+,可以理解成你足以在某个细分领域形成非常大的影响,如果这个量级到达百万会发生什么事?百万的网络连接,足以使人可以脱离于现实世界,在网络中完成一个生存的闭环。假设你有一百万真实的粉丝,你发一条微博,可能就几万块钱了,这个时候你的经济来源已经通过网络解决了,你的吃穿用也都可以通过在线购买,获得专门的机构服务。
如果这个量级到达千万又会发生什么呢?人民日报对外公布的粉丝数就是一千多万。故当你连接到一千万人,你基本上就成为了各大媒体平台的头把交椅,像快手里面的号称第一大号的【MC天佑】、微信粉丝千万的公众号【咪蒙】,所以你会发现连接到千万,足以在一个细分领域当中逐步占据头部的位置。接下来,如果连接到一亿人,那你足以在某个细分领域挑战BAT(BAT,B=百度、A=阿里巴巴、T=腾讯,中国互联网公司百度公司(Baidu)、阿里巴巴集团(Alibaba)、腾讯公司(Tencent)三大互联网公司首字母的缩写)。腾讯的微信活跃用户有九亿多,如果你连接到十亿人,你就成了腾讯;而如果你能连接到二十亿人,那你就成为了Facebook。
第三,除了量的积累之外,也有一个质的演化。质的演化有几个要点:第一个要点是任何连接一旦建立,不会满足于单一的连接形态,而是会附加各种各样的功能。所谓“全家桶”模式便是,用户只要安装了一个APP,就会被不断推荐安装更多的APP,这就是不满足于单一的连接形态。第二个要点是不管这个连接的量有多大,最重要的是对自身结点的赋能,促使自身进化为关键连接点。
任何一个连接都需要去依托于平台,依托于某种工具,语言也可以被看作一个连接的媒介。那么未来,如果按照这条原理,在这些连接过程当中,连接是会进化的。任何一个数据连接都有可能会被新的连接所取代。
那么取代的规律是什么呢?如果一种新的连接要替代一种老的连接,这种新连接的频度要更高、更快、更紧密、更美好。按照连接论分析,在手机上要取代微信的软件,目前在中国基本上没有。但是如果按照连接的进化条件来说,什么东西能取代手机呢?或许有三种东西。
第一种是比人们本身的交互次数更高的、更多的一种设备,有可能是人们用眼神控制的设备。人们每用眼神扫描一下智能眼镜,它就可以完成一次交互。由此推之,人们跟这个智能眼镜交互次数是可以超过手机,因为手机作为媒介的交互频度是远超报纸的,甚至可以认为是高50倍以上。而智能眼镜可能比手机的交互次数高100倍,人们每天可以指挥这个智能眼镜,用眼神扫描即可。
第二种取代手机的设备是基于人工智能技术。想象未来人们一进家门,通过智能语音问答系统,眼前就能展现出一个虚拟的影像场景。随着人工智能的进一步发展,智能硬件会带来变革,智能云可以调动家里所有的设备。
第三种则是更为大胆的想象,平时与人们交互次数最多的是什么?衣服或许就是一种选择。一个人每天跟衣服的交互次数高于一万次,从这个角度来说,未来可能会有一家伟大的互联网公司,就是做衣服的交互连接。
总之,按照这个原则,任何数据连接都应该有可能会被新的连接所取代。
连接是最高的形式,是思想和认知的连接
人跟人之间的物质连接是短暂的,但是思想性的连接是永久的。数据在这里面所起到的作用,就是让人们的认知更加深刻。大数据时代,一个人到底能被贴上多少个标签呢?Facebook里面一个账号,可以被打上几百万个标签,这些标签基于其浏览过的每一条Facebook文章,包括其任何一个细节的属性。
以此为例,标签可以帮助在Facebook数亿的账号里进行筛选。当某一个对象的数据被刻画得越精致时,人们对这个世界的认识程度也随之大幅加深。
当然,连接也存在过载和疏离的现象。过载现象指的是,当越来越多的连接高速进行而产生过载时,人们可能会消减目前过载的状态,然后进行聚焦。疏离现象指的是,连接好友过多之后,人们反而跟现实社会更加疏离,进而产生强烈的疏离感。以游戏工会为例,一个游戏工会可能多达百万人。很多身处其中的年轻人的生活状态是,在网吧里面玩游戏,打下金币和宝物换钱,换了钱之后在网吧里面叫外卖,累了就到网吧边上的酒店去休息,基本上不接触外面的世界。这是网络连接加强之后,用户对社会产生疏离感的真实写照,是连接带来的另一方面不太积极的影响。
数据连接的理想状态:轻于鸿毛,重如泰山
以微信为例,其作为数据连接器能够提供给用户便捷的使用体验,这是其轻于鸿毛的一面。而微信背后的计算纷繁复杂,有强大的技术支撑,这是其重如泰山的一面。
现在很多大数据平台在首页上就为用户呈现出极其复杂的功能,其实是颠倒了这两个方面。理想状态应当是前端“轻于鸿毛”,后端“重于泰山”。根据这个原理,大数据的逻辑可以简化成20个字,这20个字体现着大数据平台真正的价值——发现问题,感知风险,解决问题,建立连接,预测未来。
首先,发现问题,这是大数据研究的首要一步。第二,感知风险,或者叫感知变化。大数据系统做出来之后,应该能够连续分析其中蕴含的风险、变化的实质。第三,解决问题。目前解决问题多数手段仍在线下,且多需要第三方辅助,所以这方面重要性有所提升。第四,建立连接。把世界上更多的人连接起来,这是很重要的基础目标。第五,预测未来,只是最终目的——数据系统到底能预测到什么,能预测多久的事情。今年3月,沈老师提出“舆论预报”的概念。这可以是整个舆论场里面的短期预报,如明天的天气指数;也可以是长期预报,如一年内全体中国人的情绪会有什么样变化。
沈阳团队的数据研究,如舆情系统仅做了一年时间,但目前其机构用户数已经位居行业前列。然而,沈老师表示,团队目前搭建的平台仍然处于非常初级的阶段。基于大数据连接论归纳的这20个字:发现问题、感知风险、解决问题、建立连接、预测未来,是团队不断提升迭代的重要准则。
通过搭建平台的经历,沈老师发现数据实际上可以分为三类:一类是to G,一类是to B,一类是to C,每类的要求各不相同。to G,是指对政府而言。从本质上看,政府不需要产品,而是服务。to B,它需要大数据的场景更多是群体决策,待考虑的因素较多。to C,秉着轻于鸿毛的原则,产品良好体验性至关重要。所以大数据类别不同时,它的要求也千差万别。
去年下半年,沈老师曾提出一个模型——五层的表里数据关联模型。所有的数据都可以被分做五类:第一大类就是原来的百度、谷歌等搜索引擎能搜索到的数据,其为表层数据。表层数据没有太大的门坎,任何人都可以做一个蜘蛛爬虫去爬。第二类是手机APP里面蕴含的数据,这叫表二层数据。这种数据的获取难度比表一层稍微难一点,但是门坎仍然不是特别高。其获取方式可以通过爬虫,模拟手机抓取回来。第三类是里一层数据,这是每个单位内部的数据,比如信息管理系统的数据等。第四类是里二层数据,这是每个人产生的数据,价值性非常高。第五类是里三层数据,是每个人的基因数据。设想未来,可能再过20年左右,每个人到任何一个单位可能都会被要求提交基因数据,由此其人的许多特性概率即可被获知,如犯罪概率等。这类数据在某种程度上相当可怕,因为这类数据将会使得人类陷入一种未来确定论的境界。
从实际着手去做大数据的角度来说,若想要获得里层数据,需要拥有如微信等作为自有平台,在后台便可以拿到用户的所有信息。在里层数据里面,里二层数据即每个人的数据非常宝贵。数据的最高价值就是能够从APP里面获得的各方面数据。
第二层有价值的数据是什么?在APP里埋SDK(软件开发工具包,外语首字母缩写:SDK、外语全称:Software Development Kit。一般都是一些软件工程师为特定的软件包、软件框架、硬件平台、操作系统等建立应用软件时的开发工具的集合。),故而能拿到APP中的数据。但受限于协议,有些数据是平台无法触及的。
以今日头条等大数据信息平台为例,其可以随意向受众推送信息,但是埋SDK最大的问题是信息平台无法向受众推送平台想让受众看到的商品信息。所以在这个大数据的世界当中,最底层的是自己自有渠道拿到的数据,第二层是信息平台在这个渠道当中埋SDK,拿到的受众数据。然后再往上就是信息平台也埋不了SDK,把所有的表层数据收集起来进行分析。
所以,未来会有一个公司,把网络当中所有的ID号的数据全部收集起来,这个量级可能在千亿级别的ID号,用户只要在百度贴吧、微博、豆瓣等平台发布一则内容,大数据公司就可以全部将此联系起来,然后来分析这些ID之间的匹配关系。做不了ID大数据,还可以退而求其次做IP大数据,首先攻克网络里面有名气的、有价值的账号。
今天的大数据到底发展到了什么阶段呢?前几日,一篇微信文章中整理了国内70家最大的大数据公司,但这70家里面还有一些领域没有覆盖,这意味着目前仍处于上半场。即便如此,在某些价值密度高的领域,有些公司的规模已经较为庞大,这就意味着某些领域已经到中场,因此沈老师判断大数据正处于从上半场转向中场这样一个阶段。这就意味着今天的大数据领域,类似于20年前的房地产,大部分地方还是空地,但是有些大城市已经被广泛圈地。
根据后来的细分领域,沈老师提出了一个新概念——大数据的产业接触点。假设现在有大数据公司再来做服装资讯,就已经没有必要了,因为服装资讯已经有一家蝶讯网,且已经完成新三板上市,所以,这时候就可以考虑做服装设计的软件大数据,中国在这个领域可能还没有形成一个巨头,这就是可以尝试的方向。又或者去做服装面料的采购,这可能将是一个B2B的交易市场。再或者可以去做服装贸易加工工厂的大数据,中国服装加工工厂非常多,如果觉得这个市场量太小了,那就可以做服装行业、纺织行业工人的大数据,这个量就很大。所以这表明一条线从to G的管理到to B的交易再到to C的广泛使用,在任何一个行业都可以按照这个逻辑去切入。目前做通用大数据,这个市场的竞争已经非常激烈;所以,沈老师认为下一个阶段,行业大数据规模会进一步持续扩大,这个量级会增长到人们难以想象的地步。
大数据的运用非常广泛,从舆论的角度来说也非常有趣。在整个舆论行业当中,一个比较大的问题是舆论的客观性和不客观性。如今一个重要的课题摆在人们眼前,即如何去甄别真实的言论和虚假的言论。很不幸的是,现在的水军越来越像真实的人,好像没有什么机器在电脑上操作不了的事情。小冰,一个人工智能的产品,他写的诗比很多人写的还要好,他已经完成了这种进化,整个人类已经开始进入到人本身的ID、人本身的资讯、人工智能以及机器产生的资讯和ID大规模共存的时代,这对舆情的影响非常之大。以上是在舆情研究中需要重点考虑的第一个要素。
第二个要素是如今越来越分散的平台,多平台到达,多渠道网络,多媒介融合。在这样一种状态下,大数据想要去寻找一个传播路径,寻找一个产品,在不同的平台当中的品牌度、声量值、美誉度,实际上是一个比较复杂的课题,从另一方面来说,这个课题也就因此极具价值。
在如今的大数据形势下,沈老师认为营销、广告、公关、品牌这四个方面其实相互统一,或者说是一个共同体。也就是说此时可能需要一个精算的工具,需要能把不同平台的粉丝连接起来的工具,同时可能也需要在不同平台当中测算不同转化率的工具。假设今天有了资讯数据,能不能考虑把环保数据纳入进来,然后根据环保的数据、雾霾的数据,进而影响北京的舆论场。想要做预报的话,需要把环保数据和资讯数据进行整合。正如刚才强调的,不管是大数据连接论也好,还是指数大数据、舆论大数据、营广公品(营销、广告、公关、品牌)大数据,人类的一个终极目标就是把所有的数据连接起来,未来在全世界的范围内,人类可能就身处一个国家。如果真有走向这一步的那天,人类更需要强有力的连接手段,包括更好的测算模型以及在伦理方面的更加精确和精妙的把握。