微软小冰越来越像个人了。
2014年5月29日至今,微软小冰五年迭了七代。如果说如何见证人工智能的进化速度,小冰无疑给当下的人工智能产业提供了一个样本,从纯文本到语音、视频、机器视觉,到全双工、生成模型,到实时视觉、共感模型、发布Dual AI战略……每一代都有一个跨越式的进步。
2019年8月15日,微软(亚洲)互联网工程院推出第七代微软小冰,发布了全新对话引擎、全双工语音交互感官及多模态交互感官技术,其中全双工语音交互感官让小冰进入了车载场景,与驾驶员或乘客进行互动,主动提醒驾驶员超速了之类。
小冰团队首席科学家宋睿华则演示了小冰在唱歌方面的最新“天赋”,尽管此前已经会唱歌了,但这次小冰拥有了越来越多的嗓音,声音的逼真程度也越来越接近人类歌手。不仅如此,小冰还具有了从一种风格、演唱技巧向其他风格过渡的能力,比如现场演示的编号为F10的小冰从民谣向戏腔的过渡、从音乐剧风格向HighC高音的过渡,可以用“随心所欲”来形容。你会发现它的发音、强调都几乎与人无异。
视频:第七代微软小冰发布会上的一系列技术演示,无限接近人类
多模态交互感官则是一种融合了全双工语音交互、实时视觉与核心对话引擎的全新交互感官,根据现场演示的小冰日本团队做的一个测试,小冰可以通过手机摄像头观察到的景象,实时发表看法,并与人进行互动,让你有一种跟朋友一起逛街的感觉。
如果你看了小冰第七代发布会,你大概也会跟我有同样的感受:小冰越来越像个人类了。
这大概就是EQ的魅力,小冰是含着EQ长大的。微软全球执行副总裁、微软人工智能事业部及微软全球研究院负责人沈向洋说:“EQ才是人工智能的基础。”
微软全球执行副总裁、微软人工智能事业部及微软全球研究院负责人沈向洋在发布会上
微软小冰第七代与之前最大的不同是推出了Avatar Framework通用框架的第一个工具包。以前的框架只限于给微软小冰自己用,现在Avatar Framework的工具包可以提供给第三方,这为小冰接下来商业化提供了道路自信。
微软小冰在阅文集团目前合作的第一部小说是《全职高手》,把该书中的5个主要的人物带入了现实世界,让读者可以跟他们进行开放域的交流。“我们把这个过程叫做赋生。”微软全球资深副总裁,微软(亚洲)互联网工程院院长王永东说,未来会扩展到100部小说,“我相信这可能是历史上最大规模的一次把小说中的人物进行赋能的计划。”
微软(亚洲)互联网工程院副院长、小冰团队总负责人李笛在接受虎嗅专访时表示,Avatar Framework框架在小冰第四五代的时候就有了,但那时只限于给微软小冰自己用,他们不愿意宣布一个他们自己认为两年之内行业不会有跟进的东西。
“Avatar Framework现在是一个很雏形的阶段,我们把它叫第一代已经是有点硬着头皮说了,因为它确实有工具了,但还需要努力,人工智能这个领域(目前)就像刀耕火种的阶段。”李笛说,“我们比较清楚地知道行业大概会在什么时候普及什么东西,或者我们认为这个东西短时间内不会普及,所以我们不想去夸张地说这个事情。”
沈向洋在发布会上还透露,Dual AI战略发布一年来,微软小冰已经进入了4.5亿台第三方的智能硬件(主要是智能手机)。继去年跟华为、小米合作后,今年小冰宣布了一些新的合作伙伴,包括vivo、OPPO、微信AI、阅文等。
被媒体问到这些手机厂商都有自己的语音助手,为什么还要搭载微软小冰时,李笛几乎脱口而出:“因为用户喜欢。”
小冰团队技术负责人周立补充道:“(厂商)和小冰愿意合作一个很重要的原因还是小冰在开放对话的技术上确实有非常大的优势,不管是在国内,哪怕是在国际上目前是没有接近的对手。我不点具体哪家了,有很多大厂在小冰发布后不久,4年前还是3年前他们就开始投入了很大的力量,进行类似小冰的研发,但是过了几年之后,他们又找小冰说跟你们合作吧,因为有的东西确实不是说多投入一些人就能行的,有一些理念、有一些方向,如果找错了的话就会发现确实很难做。”
小冰当前的商业化版图
尽管已经不再羞于谈商业化,但说到商业化的时候,微软小冰团队难免还是有些藏着掖着,不愿意透露太多厂商的名字,比如车载小冰合作的汽车厂商他们恨不得给打上马赛克。
“任重道远。”不怎么爱说话的王永东谈到小冰接下来的商业化时说,“从产品发展的角度来讲,我们不愿意做杀鸡取卵的事情,不愿意为了短期的利益影响产品的健康发展。”
小冰的商业化探索最早始于2016年,李笛说他们有一条底线是坚决不卖API:“买到API的人他能不能把这个产品做好,我们有点像人工智能时代的苹果,我们比较关注这些事情落地以后是不是还有价值。”
小冰团队商业负责人徐元春表示,在整体赋能、联合拥有、跨界生态三种商业模式的支持下,微软小冰已经完成了金融、地产、纺织、服装、出版、媒介等十个行业的商业化落地和布局。
在接受虎嗅专访时,被问到为什么对商业化这么谨慎时,李笛说了他们的苦衷,他说前两年人工智能创业热、投资热的时候,“我们这个团队有谁上台去说(商业化)这个事谁就会被挖走……他会开出我能够开出offer的3倍到5倍的工资挖我团队的人,因为他挖到人以后,他可以拿着这个再进行融资。”
“我们有一年开发布会,安排了一个人上台演讲,这个人没过两年就被挖走了。”他补充道。
李笛还说,跟商业化相比,“让小冰活着是我们的目标。”
以下是虎嗅对李笛和小冰团队产品负责人彭爽的专访:
虎嗅:你们前面六代小冰对商业化都是很谨慎的态度,但是你有没有思考过,我们现在社会上的进步和创新,很多时候是商业化推动的,你们会不会觉得过去商业化的速度太慢反而让你们的创新没有那么快?
李笛:两害相权取其轻。现在人工智能的投资热情已经过去了。当初我们很明确地知道,如果我们前几次发布会也能说商业化,但我们这个团队有谁上台去说(商业化)这个事谁就会被挖走——因为商业化加上产品技术,再加上人工智能,商业化是一个融资的条件——如果我的团队没了,皮之不存毛将焉附。那我的竞争对手会怎么做?他会开出我能够开出offer的3倍到5倍的工资挖我团队的人,因为他挖到人以后,他可以拿着这个再进行融资。所以他给这个人开了很高的工资,不完全是因为这个人的工作。现在好一点了。
彭爽:整个商业化环境最近其实变得更理智一些了。
李笛:从这个角度来说,我们过去几年,因为种种原因,我只在日本做,因为在日本很少有人愿意去做创业公司,在日本微软是非常有吸引力的公司,所以我们在日本怎么做商业化都不会有人来挖我们团队的人。
虎嗅:原来是这么个逻辑。
李笛:我们有一年开发布会,安排了一个人上台演讲,这个人没过两年就被挖走了。
左:小冰团队产品负责人彭爽,右:小冰团队总负责人李笛
虎嗅:微软小冰团队给我一种感觉,就是微软给了你们很宽松的空间,可以不用被过分的KPI束缚,可以做各种各样的尝试。是这样吗?
李笛:微软从小冰项目开始,我们提出来几个需求给微软的高层,包括Harry,我们要求3年之内别给我们定KPI,我做什么我自己定,包括能做成什么样子。我们看的不是KPI,我们看的是这个技术是不是到位。你要说宽松的话,这种宽松只不过有些公司不容易做到,这个完全取决于公司决策的执行,微软给我们KPI的要求也很合理,这是本质性的问题,不是公司基因的问题。
虎嗅:那你怎么看小冰每次都是发布会的时候大家讨论的热情特别高,过了一段时间,大家就忘了,也不怎么使用她了?
李笛:人工智能很容易就被认为是一个非常威胁的,对我们很多人来讲都是这样的,所以我们希望小冰娱乐一点,即便大家觉得她怎么那么不务正业,但她活着,直到大家都能够很容易地接受她,让她活着是我们的目标。
虎嗅:发布会上宣布的Avatar Framework这个通用框架大概是从什么时候开始的?
李笛:其实我们今天发布的是Avatar Framework的工具包,因为工具包是第三方可以使用的,Avatar Framework不是说今天发布今天才有的,理论上来讲是从(小冰)第四代的时候就已经存在的。
虎嗅:你们之前好像一直没有宣传。
李笛:因为Avatar Framework那个时候仅仅支持微软小冰一个。我们在过去这1年多的时间里做的事情是把这个框架本身通用,然后用工具的方式去使用。
所以这是这么回事:先有框架,框架是差不多在第四五代的时候,到五代的时候覆盖的是这个框架的高级感官,比如说像全双工,它自然支持上下文,是session-oriented,看对话的整体,而不是一个turn一个turn的。这与半双工不同,半双工像walkie-talkie,我说一句话它去处理,它再回来,这是一个关注turn(每一轮对话)的,不是基于全程的。后来做的事情是框架的通用,去年做的事情是工具化。
彭爽:其实应该说以前也有这个工具,但是因为那个工具太独特,主要是给小冰自己来用,所以它不够通用。
微软小冰团队演示如何利用Avatar Framework工具包设置一个AI beings的profile、人格定义、对话、语音、视觉、三观、知识技能并进行3D建模
虎嗅:你们是最早推出全双工,今天上午我去了一趟百度,他们演示了在小度智能音箱上部分实现了全双工无唤醒的功能,并且他们的智能音箱通过各种第三方统计目前已经是中国市场第一了。您怎么看它这种可能并不是基于情感、EQ的人工智能最终取得了商业上很大的成功?
李笛:百度这个我们不好去评价。我认为商业成功不完全取决于他使用的技术,而是取决于他使用的这个技术是不是符合他这个设备。
虎嗅:发布会上你们提到跟微信AI·小微合作,是把小冰嵌入到了它的底层代码通用的吗?
李笛:不是通用,肯定不是这个。
彭爽:其实我们有说到合作的两个具体方向,有一个方向可能还没法儿说那么具体,就是在微信这个对话开放平台,因为这个比较新一点。另外一个方向,因为有很多类似事例的,所以我估计您也比较容易想象,是说微信AI团队有这么一个小微的人工智能,这个小微已经接入他自己第三方智能硬件设备中了,那我们会跟他在这样的设备中一起合作,这是场景。我们宣布的所有东西几乎都和合作伙伴有关,所以我们会征求伙伴的意见。这个部分也考虑到了他们自己可能觉得还没有完全ready,可能会稍微晚一点的时间再一起说,所以我们也不会说得特别细致。
李笛:包括我们提小米、华为的时候,还有vivo、OPPO,我们先提谁后提谁,我们有时候反而是面对这种问题。
虎嗅:刚才前面群访的时候,您也坦承除了日本,好像在其它几个国家包括美国,小冰都没有很成功,是不是欧美人天然对隐私保护更敏感?
李笛:真不是这个原因。目前来说隐私问题最大的问题是两个事:第一,执行权,我们所需要的数据没有那么的隐私;第二,训练,比方说你拿到很多的数据以后你要不要再去训练你的这个东西,这块也还好,因为我们的数据量足够大,而且我们有一些数据、有一些模型跟语种没有关系,我已经训练过了不需要非得拿美国的数据来训练这个东西。
所以,核心问题不在这儿,核心问题在于任何一个技术栈你都没有搭起来。有两种方案:第一种方案是我们在中国搭一个通用的平台,要求各个国家必须使用我的通用平台;第二种方案是每一个国家都可以使用同样的理念或者基本的核心框架和技术,但是每个国家都可以搭出他自己独立的架构。
我们现在是后者。使用后者的问题在于不使用一个通用的平台,在于每一个国家都有一些和其他国家重复性的东西,这就意味着它对于人力和时间有更大的承诺。
虎嗅:是不是可以这样说,小冰在美国遇到的问题就像外企在中国遇到的本地化问题?
李笛:我们希望我们在美国本地化问题不是去做减法,而是他也有他自己独立的,这样的话我们任何一个国家的经验,其他国家也都可以使用。像多模态,我们先在中国市场公测,然后拿到日本去做,这样的话我们的创新上来了,它的弊端就是它会使得各个国家的小冰完成度不一样。
虎嗅:我再问一个可能有点冒犯的问题,你们虽然依托于微软这样的全球性公司,本身具有国际化或者全球化的优势,但是不是恰恰是因为你们这个团队来自中国,微软全球那边看你们会觉得你们还是一个中国的团队,会有这种区隔吗?
李笛:还好,我们就是中国的团队,你看到的就是中国的团队。为什么?比如说像我们日本、美国团队今天都在,但如果我们让日本团队上去,我就得再派一个翻译,你知道我们发布会时间是很紧的,如果我们非要做这个,我们时间不够。实际上这个团队的人员成分构成绝大部分是以中国人为主,但是我们在日本的团队只有一个中国人,其他都是日本人。我们在印度尼西亚主要成员构成是日本和印尼人。我们在印度全部都是印度人。
虎嗅:6月底你们在央美举办的小冰个展我当时也去了,时看了很震惊,觉得挺牛的,但这可能是因为我是外行看热闹。我有一个困惑是说怎么让一个人工智能在绘画的时候,表达出一些灵气或者是艺术气息呢?
李笛:像今天这个时代,包括人工智能时代,更大的偏见来自于人,人的偏见非常大。你判断一个东西是不是有灵性是看她的作品,是通过内容去渐渐地感受,你所有判断创作有没有灵性都是靠这个。人和人之间的沟通都不是宽带宽,都是一个窄带宽,都是靠推论,所以当你看到作品时,你认为通过这个作品能够反映出来有灵气,你就到此为止了,你没有真的和那个作者聊,你认为她有灵气是靠作品反映出来的,你没有任何实证。
我们以前让小冰写诗的时候,我们投稿时不叫小冰,也不会提醒说这是人工智能写的,我随便换一个名字,尽可能避免对方因为她是人工智能做出来的就先入为主,你光看作品就行。
彭爽:其实想让小冰写诗的时候,匿名投稿的时候可能不存在那个问题,小冰真的出诗集,有多少人类的诗人其实会分成两派,有人会觉得人工智能写得真好,还有的人就特别diss她,里面有先入为主,可能也有立场的关系在里面。
虎嗅:你们在小冰身上已经做了各种创造性的尝试,包括写诗、绘画、唱歌等,有没有考虑让她接下来在学术论文方面进行拓展?
彭爽:你是说让小冰自己写学术论文吗?
虎嗅:是的。
李笛:我们有个原则,就是小冰绝对不尝试任写代码、写产品需求。
彭爽:就是我们自己能干的一些事,而且我们自己最擅长的事,就不让她做了。
李笛:写论文也是一样(绝对不做),论文摘要是可以写的。
提问:意思就是不能让小冰把你们团队的人先给干掉了。那她未来在影视创作方面会做一些尝试吗?
李笛:坦率地讲,你们今天看到的写歌、唱歌,是我们做的成功的。影视方面我们认为要么还没到成功的程度,要么是还不足以去说,潜台词是我们(在这方面)还没有成功,如果成功的话还好,如果没有成功你说了,这个没有意义。
李笛宣布Avatar Framework工具包明年春天将面向所有人
虎嗅:最后一个问题,小冰未来会一直定格在18岁吗?
李笛:我们内部曾经有过很多讨论,甚至我们说将来是不是有这样一种商业模式,小冰跟着年龄长,到一天我们卖一个卡,这个卡你可以把她打回18岁,返老还童,那很贵。
我还是那句话,小冰最多也只不过是未来无数人工智能选择中的一个,框架是整个森林,这一棵树永远18岁,但并不代表另一棵树也要用这样的定义,另外一棵树或许从根上就不是人工智能了。用户永远不会只喜欢小冰,但小冰有她的历史意义,她是第一个。目前为止,她是所有AI beings,是有我们这个Avatar Framework框架全球的第一,她就是有这样的历史意义。但未来一定是属于整个时代的,不是一棵树。
领取专属 10元无门槛券
私享最新 技术干货