8月27日,这个聚集了清华唐杰教授、人大文继荣教授(人大高瓴人工智能学院院长,SIGIR2020主席)等一众在信息检索与挖掘领域有丰富经验的研究人员的团队宣布,他们将致力于打造基于自然交互的个人智能信息助理,取代传统的搜索引擎,成为下一代信息获取工具。
这件事,能做成吗?
撰文 | 太浪
1 新时代的搜索需求
获取高质量(准确、全面、深入、实时)信息,永远是人类的核心诉求,是进行正确判断和决策的前提。但人的记忆和查找信息的能力是有限的,而计算机在这一方面却优势突出。
搜索引擎诞生的背景就是,信息过载,人类需要一个可以帮自己在互联网上找自己所需要信息的工具。
但随着人们使用搜索引擎的场景越来越多,(比如在使用电脑、手机、可穿戴设备时,甚至是在驾驶途中,都有搜索信息的需求,比如查找某个目的地,)信息量越来越大,信息存储地越来越多。很多信息已经不是像传统的 web 形式存在,而是存在于各种 APP 中。有数据显示,截至 2018 年12月,我国市场上监测到的APP在架数量为449万款。而随着 5G、传感器的发展,万物互联时代的到来,新的信息形式的产生,将会带来更进一步的信息爆炸。
数据分散化现象加剧,越来越多的信息不再能被搜索引擎找到。
与此同时,现有搜索引擎的诸多缺陷却没有得到补足。比如,一问一答的交互形式,让用户无法完整描述整个信息需求。给出的搜索结果是一排排冗长的文档而非精确的答案。更不用说,使用搜索引擎完成人类高复杂度的任务(比如,协助高考填报志愿,帮选学校/专业),机器更无能为力。
2 基于自然交互的个人智能信息助理
基于这样的背景,8 月 27 日,北京智源人工智能研究院发布了「智能信息检索与挖掘」重大研究方向,旨在智能信息检索与挖掘的基础理论方面寻求突破,同时基于理论基础建立新型的信息检索与挖掘算法,有效解决用户精准多样的信息需求与庞大的互联网数据规模之间存在的鸿沟问题。
为了实现上述目标,智源研究院聘请了来自北大、清华、人大、中科院的十位知名学者:王建勇教授、崔斌教授、唐杰教授、郭嘉丰研究员、徐君教授、刘奕群教授、刘康副研究员、邹磊教授、沈华伟研究员、贾珈副教授,他们均是所在研究领域具有国际影响力的中青年学术带头人,有多位是国际顶级期刊的编委,也曾获得国际知识发现与数据挖掘大会(KDD)、国际信息检索大会(SIGIR)等数据挖掘领域国际顶级会议的最佳论文奖。
北京智源人工智能研究院是 2018 年 11 月,在科技部和北京市委市政府的指导和支持下,由北京市科委和海淀区政府推动成立,依托北京大学、清华大学、中国科学院、百度、小米、字节跳动、美团点评、旷视科技等北京人工智能领域优势单位共建的新型研发机构。
「现在,是时候集中我们北京的力量,去探索下一代信息获取工具了。」文继荣教授表示。作为「智能信息检索与挖掘」重大研究方向的首席科学家,他将领导「智能信息检索与挖掘」团队,面向新时代,致力于做出「基于自然交互的个人智能信息助手」,取代传统的搜索引擎,成为下一代信息获取工具。
文继荣教授
文继荣教授在27日的发布会上指出,目前,搜索引擎仍是人们主动获取信息的主要手段,也是迄今为止最为成功的大规模人工智能应用之一。但搜索技术的架构和交互界面已经 30 年未变,搜索的核心技术也已经 10 年没有重大进步。
他认为,新时代的搜索引擎应该升级为智能信息助手,甚至进一步演变为个人智能信息助手,使得用户能够随时、随地,方便地获取与自己相关的高质量信息和知识。
根据文继荣的描述,你可以自然地与他们开发的智能信息助手进行对话,与它多轮交互,或者等它来主动交互;当你对它提问时,它会给出精确的答案,而不是给出一堆文本让你自己看,它有知识,能回答准确;它具有数据整合的功能,会用各种各样的信息(包括公开数据、个人数据和第三方数据)来满足你的信息需求;它还会专属于你,根据你的用户画像,它会知道你想要什么,并且能感知你所处的场景,给你提供个性化服务。
为了实现这样一个目标,智源研究院「智能信息检索与挖掘」团队将从理论基础、算法模型、系统三个层面展开研究。
理论方面,唐杰、徐君、沈华伟将探索整个智能信息检索与挖掘领域的「数学理论基础」和「认知理论技术」;
算法模型方面,刘奕群、贾珈将围绕「基于自然语言的交互式信息获取」进行研究,王建勇、刘康、邹磊将着重突破「知识增强的信息表示与挖掘」,崔斌、郭嘉丰、徐君将主要研究「深度语义检索与推荐模型」问题。
「实际上,算法模型这三个部分对应着传统信息检索三个最重要的问题:一是对用户需求的理解,二是对文本/数据的理解,三是将用户需求和文本/数据做连接,做检索和推荐。」文继荣表示,「但是它在广度和深度上,相比于我们传统的信息检索,往前走了一大步。」
做出新一代个人智能信息助手,便是他们要在系统方面做的努力。
文继荣表示,他们希望「围绕构建个人智能信息助手的关键科学和技术问题,联合北京地区高校和科研机构的优秀学者,进行联合攻关,显著推进智能信息检索与挖掘的研究,逐渐形成该领域的『北京学派』。」
3 花式交流促协同
不过,虽然大家有着共同目标,但各位学者来自不同单位、有着各自日常工作,如何在接下来的项目执行过程中更好地合作,是需要费心思考的。
「现在国内很多大项目基本上是把钱一分,大家就分头做自己的了,到最后是不是能够有一些好的成果出来,是很难的。这个是普遍性的问题。」文继荣说,「但是我不希望我们在智源做事情也是那样。我还是希望有一个更好的机制,使大家将来能够像今天这样,有更多的交流,在很多方面互相合作。」
于是,在 8 月 27 日「智能信息检索与挖掘」重大研究方向发布会的圆桌讨论环节,文继荣教授、崔斌教授、唐杰教授、徐君教授、郭嘉丰教授、刘奕群教授、窦志成教授、沈华伟教授以及字节跳动人工智能实验室负责人马维英博士共同就这一话题进行了探讨。
窦志成表示,从一开始,就应当确立共同的目标与责任分工:大概有一个要执行的输出物,需要哪些数据,围绕这些数据要做哪些地方;然后,每个人的研究尽量往这个方面移一下。
多位学者均表示,定期的、各种形式的、跨学科的沟通交流十分必要。
刘奕群讲述了自己非常欣赏的一种模式:澳大利亚墨尔本有一批学者,他们会定期在墨尔本边上一个非常漂亮的小城市举办信息检索相关的学术论坛、学生会议。据他了解,墨尔本差不多聚集了至少五六个来自不同学校的、做这个档次的高水平的检索的学者,他们会跨大学去指导一些学生。学生可以得到不只一位导师的指导。
他认为,应该形成一个以智源研究院为中心,不同导师、学生联系紧密、沟通频繁的研究团体。只有通过不同观点的不断碰撞,才能激发更多的活力与创意。
也有学者指出,应该有跨领域的交流。
徐君曾在微软亚洲研究院当过实习生,他说,自己学生时代最大的受益就是可以听各种各样不同的报告,然后与其他人进行讨论。前段时间被拉去帮助解决新药研发问题的经历,更是让他认识到跨学科交流的重要性。
「刚开始去的时候,我完全不懂,但是一两个小时的交流后,我逐渐明白他们面临的问题是什么。一个是怎么做匹配,另一个是化合物的数量可能达几十亿种,他们可能要算二十年才能算出一个药来。那么,这个时候,我们人工智能的一些方法在这个领域能够发挥作用。」
《Nature》一篇探讨 AI 可能对药物研发产生的变革的文章中指出,深度学习能够通过穷尽各大患者及健康人群数据库,找到药物候选靶点,运用算法精准预测,快速筛选活性化合物,虚拟构建药物分子,大大缩短药物研发的周期。
徐君觉得,那些搞制药的人想出来的方法,「也许也能够反哺我们」。
这批智源学者中,有多位是从微软亚洲研究院走出来的,他们对数据、应用、需求的重要性都有深刻认识。因此,当字节跳动人工智能实验室负责人马维英博士提到可以给数据、给算力时,被「cue」,届时一定要兑现承诺。
「我觉得今天这边的研究能利用更好的大数据。我们的数据资源很丰沛,从新闻、图片、视频、直播到新一代问答,我们也在做音乐的创作。所有的内容,大数据非常多,可以让你做内容的理解、创造、分发,连接人和信息,再到垂直应用到广告、电商、财经、教育、学习、理财等领域。如果需要,我们还能够提供算力。」
马维英表示,作为企业,他们最想要的是「人才」,「我们也在做搜索,我们的推荐引擎也是使用排序算法而不是传统的推荐,跟搜索引擎一样复杂。我们也非常重视对话引擎,今天,除了看头条,我们也想听头条、问头条、跟头条对话,但这得一步一步,这些都有机会一起合作。」
他希望,能够打通智源与字节跳动等企业之间的沟通与交往渠道,实现数据、算力、人才的优势互补。
崔斌则认为,最终要做出一个系统(智能信息助手)是一件有难度的事,「按照现在项目的形式,基本上很难各家一起来做。」
这个问题是需要首席科学家文继荣进行协调的。
领取专属 10元无门槛券
私享最新 技术干货