近日,百度深度学习实验室主任林元庆在百度年终媒体分享会上做了《看懂AI-百度技术开放日》的演讲,从客观层面阐述了人工智能技术研发的四大支柱,为我们呈现了让人工智能更深层,更极致的方法论,下面是演讲精华摘要。
人工智能有三大要素,就是前面我们看到的机器学习算法,大数据,大规模计算。但这里我们特别要强调一个要素——大应用。人工智能领域真正要做到极致,很深地去解决一些问题,就需要加上大应用这个要素。
下面先讲第一个要素,机器学习算法,这里我们重点要讲的是深度学习。百度深度学习实验室旗下目前正在做的有10个大方向,都跟深度学习和计算机视觉相关。
下面以深度学习做机器翻译为例,这是一个非常有名的机器翻译的数据,这是英语到法语中的测试结果,在用我们的方法做之前,大家的方法很少能把机器翻译BLEU评测值做到37.7的,我们去年开始用深度学习方法后,第一次用深度学习方法做出了这个专家系统,是目前为止最深的NMT模型。
大数据这里我们要讲的是,大规模计算。
我们正在做的一件事情,是要把我们的计算环境开源,下面是我们已经在部署的一个非常大GPU BOX,现在商用的GPU BOX基本上是4块到8块,但这样的话,机器跟机器之间的并行,不会那么高效,所以我们弄了可容纳多达128块GPU的GPU BOX,现在我们准备开放出来,给工业界,给高校都感受到这个大规模计算的能力。
我们需要很多大数据。人工智能的研发轨迹,经过一个比较久的储备后,在经过了前期技术和早期应用之后,它会有一个非常非常快的上升期,然后这个上升期的重要性,大家可以理解成一个正循环——数据,技术,产品,用户,更多数据,更强的技术——有了产品,有了用户去用,就会产生更多的数据,有了更多数据之后,就会有更强的技术,因此人工智能研发轨迹其实是一个非常重要的正循环。
这里要总结的是,AI要做到极致,必须有大应用。以人脸闸机为例,乌镇互联网大会上的闸机,20台人脸注册终端,实现了乌镇景区年流量近千万游客的多次入园需求,站在追求大应用的维度上,虽然我们不是第一个做人脸闸机的,但我们可以成为这个行业真正的改变者。
前面我也有说道,人工智能有三大要素,就是前面我们看到的机器学习算法,大数据,大规模计算。但这里我们特别要强调一个要素——大应用。人工智能领域真正要做到极致,很深地去解决一些问题,就需要加上大应用这个要素。
附:在今年 10 月的 IROS 2016 年大会期间,雷锋网采访了百度深度学习实验室主任林元庆:就 IROS、开源平台、AI眼下最重要的事情等问题进行访谈,以下是采访全文。
IROS是世界上最大的关于Robitics的国际会议之一,大会的Plenary talk是会议众多演讲的重中之重。虽然平时我很少在外面公开做演讲,但这样一个学术性的talk既然主动邀请,就过来了,另外这也是向世界的Robotics研究人员介绍百度人工智能的好机会。
很多,像我刚刚说的百度大脑里面,有语音识别,计算机视觉,NLP,推荐/预测,运动/控制,决策/规划,这几个AI大方向都是机器人学的重要基础技术。
这两个技术都在进步,我们没有一个预设的立场,百度这两个方向都在应用。选择上,百度不同业务,训练阶段大部分用的大部分是GPU,testing阶段有用GPU,也有用FPGA的,更成熟的业务可能会选择FPGA,这样优化的空间会更大一些。
(看你刚刚放的PPT划分的百度AI相关业务,这些业务用哪个组合会有明确的选择吗?)
这个很难讲,人工智能不是单个技术,而是包含很多很多的不同技术,以计算机视觉为例,它就有图像分类,物体检测,图像分割等不同技术。GPU和FPGA对不同的任务,可能各有优缺点。
(就是一项业务训练的时候用的GPU,实际应用的时候可能转到FPGA?)
对,是这样。
这几年ImageNet的竞赛涌现出一些非常有用的算法,比如AlexNet之后的GoogleNet, VGG, ResNet等,对工业界的技术性能的提高,有很大的推动作用。ImageNet一个很大的意义是在于推动算法的革新。这对工业界和学术界,都是非常有意义的。
同时,工业界打造的产品,常常需要go beyond ImageNet。我记得第一年(2010年)ImageNet比赛我们拿了第一名。我是当时项目的负责人。但之后我们发现ImageNet的结果很难直接用在产品上。我们后来开始主攻细粒度图像识别。百度糯米这个月下旬将推出一个非常重要的功能,其中的一个重要技术就是菜品图像的细粒度识别(识别图片里的菜品是哪个餐馆的哪道菜)。即使是通用的图像分类,百度的图像库有接近1亿张带类别标签的图片,比ImageNet Challenge(150万张图片)的大很多。我们内部的数据要比公开的数据大很多,需要更好地反应我们要解决的问题。
对,有很多关联的。最直接的当然是细粒度图像识别方向。我们希望在百度搭建一个非常强大的细粒度图像识别的研发团队。其它的项目与这也有关联。比如人脸识别就是一个最经典的细粒度图像识别任务。很多技术是相通的。还比如我们的医学图像分析,它的很多做法与细粒度图像识别也有相通之处。
我们现在强调做instance-level的细粒度图像识别。比如,我们身下坐的这把椅子,我们不单单只是识别这是一把椅子,我们还需要识别出这是哪个厂家哪个型号的椅子。还比如前面提到的“哪个餐馆哪道菜”的识别。这些都是非常精细的识别。这些问题当然都很难,需要投入很大的研发力量。但应用前景是非常大的。
NEC美国实验室在美国是非常优秀的实验室,也在AI上做了非常多的工作。我也非常幸运地在那里做了7年半的研究,包括最后三年多作为实验室媒体分析部门的负责人。当时的工作与现在的工作一脉相承。
最重要的一步是要有用,能解决实际问题,真正能解决一些很重要的问题。比如自动驾驶,那就是要真正能上路。人脸识别,就是什么情况下人脸识别都能识别得非常精准。
机器人,包括AI,大家可能会有一些误解,觉得这是单一技术,但其实它涵盖的技术非常复杂,而一个人是很难去解决所有的技术的。像今天第一个talk讲的机器手抓取,从应用角度来看这是一个非常特定的领域,但这个方向做学问的话你都可以做很久。
我个人的倾向是注意不要大而全,要根据自身的兴趣和特长定一些侧重点。我经常会跟我身边的人说,要认准一个方向,做到这个方向的Mr. something,比如Mr. fine-grained image recognition。这样你的事业可能就越走越宽。
AI的平台很重要,确实需要多样化的选择,上次我也回了他朋友圈,认为我们这一代人应该团结起来,推动深度学习平台的开放和多样化。百度现在有PaddlePaddle深度学习平台,这个其实是百度花了非常大的资源做的一个平台,现在开源了,希望能在中国人工智能领域贡献一些我们的力量。
还是不太一样。很多AI技术有一个正循环效应,越多的人来用,你的系统越好,这样会吸引越多的人来用。你已经快速迭代了甚至已经做到极致了,别人再去重新开始一个,难度是比较高的。
林元庆在演讲的过程中,以及会后采访的过程中,一直在强调AI大幕“已经启动”这个关键动作,虽然“人工智能”这个概念最早从1955年8月31日就开始提出,但从当时的诞生,到中间的两起两落,一直像个蹒跚学步的孩子一样经历了60年才迎来了第三次复兴的浪潮。
1956年到1974年,全球第一次人工智能浪潮出现。 1974年到1980年。第一次人工智能冬天出现。 80年代出现了人工智能数学模型方面的重大发明,第二次浪潮出现。 1987年到1993年现代PC的出现,让人工智能的寒冬再次降临。
不过这一次,随着硬件,数据,算法三板斧的默契配合和发展,AlphaGo与世界顶级围棋高手李世石的人机世纪对战,人工智能已经从基本的语音识别,图像识别,向着自动驾驶,视频,AR,医疗,金融等各种领域无声地渗透,也引发了全民关注AI复兴的热潮。
老骥伏枥,志在千里。如果说过去60年是它从孕育到踌躇的“蹒跚”周期,那往后60年,将会是它揭开“无穷大”大幕的周期。