作为谷歌 AI 帝国的重要部分,谷歌大脑团队一直致力于通过研究和系统工程来推动人工智能领域的发展。去年他们分享了 2016 年的工作总结。在接下来的一年中,他们在制造智能机器的长期研究中不断取得进步,并与来自 Google 和 Alphabet 的其他团队合作,利用研究成果来为人类造福。
近日,该团队按照惯例,发表了 2017 年的年度总结。这份总结由谷歌高级研究员 Jeff Dean 代表整个团队执笔。总结分为上下两篇。在上篇中主要介绍了 2017 年团队的基础研究工作,开源一些软件和数据集以及用于机器学习的硬件更新。下篇将介绍团队在特定领域的研究,比如医疗,机器人,和一些基础科学。以及更多的关于团队富有的创造力,公平和包容性的工作,和跟多关于团队自身的内容。
核心研究
谷歌大脑团队的关注的重点是那些可以在机器学习领域提高理解力和解决新问题的能力的研究。以下是一些研究主题。
1. 自动化机器学习
如我们所知,机器学习的算法是由机器学习专家精细设计的,但是需要解决的新问题层出不穷。自动化机器学习的目标就是让计算机自动去解决新的机器学习问题,而不需要人类机器学习专家在每个新问题上进行干预。如果我们希望得到真正的智能系统,这就是必须的基本能力。
谷歌大脑团队设计出使用强化学习和演化算法的新的神经网络设计方法。这项工作已经被扩展到最新的 ImageNet 分类和检测,并展示了如何自动学习新的优化算法和有效的激活函数。团队积极与谷歌的 Cloud AI 团队合作,让谷歌用户可以享受这项成果,同时将这项研究在多个方向上推进。
图丨神经结构搜索发现的卷积结构
图丨自动机器学习的网络进行物体探测
2. 语音理解与生成
团队发展新的技术来改善计算机理解和生成人类语音的能力,并与谷歌的语音团队合作为一个多端到端的语音识别系统研究出多种优化方法。这使得 Google 的产品——语音识别系统的相对单词错误率降低了 16%。这项工作将许多独立的研究线索汇集到一起。
图丨Listen-Attend-Spell 端对端语音识别系统的组成
团队还与 Google 的 Machine Perception 团队合作开发了一种新的文本到语音生成方法,Tacotron 2。它极大地提高了生成的语音的质量。这个模型达到了 4.53 的平均意见得分(MOS),相比之下,有声读物中的专业记录语音的 MOS 为 4.58,之前的计算机语音生成系统最好成绩也仅仅为 4.34。
图丨Tacotron 2 结构图
3. 新的机器学习算法和途径
团队一直致力于开发新奇的机器学习算法和方法,包括在 capsules 上的研究(明确地寻找激活特征协议,作为在执行视觉任务时评估多种不同噪音假设的方式),sparsely-gated mixtures of experts(使非常大的模型仍能有很高的计算效率),超网络(使用一个模型的权重为另一个模型生成权重),新型多模式模型(在同一模型中跨音频,视觉和文本输入执行多任务学习),基于注意的机制(替代卷积和循环模型),符号和非符号化的学习优化方法,一种通过离散变量的反向传播技术,以及一些对强化学习算法改进。
4. 计算机系统领域的机器学习
谷歌大脑团队对于用机器学习的方法在计算机系统中取代传统的启发式应用非常感兴趣。他们已经展示了如何使用强化学习来进行放置决策,将计算图映射到一组计算设备上,而且比人类专家做的更好。团队还与 Google Research 合作,展示了神经网络建立的索引比传统数据结构(如 B 树,散列表和布隆过滤器)更快,更小。如 NIPS 关于机器学习系统和系统的机器学习讨论会上所说的,谷歌大脑团队相信,他们正在触及在核心计算机系统中使用机器学习这一领域。
图丨用习得的模型作为索引结构
5. 隐私与安全
机器学习及其与安全和隐私的交互一直是团队关注的焦点。在一篇获得 ICLR 2017“最佳论文奖”的的论文中,团队展示了机器学习技术可以提供不同方式的隐私保证。团队还继续调查了抗性样例的性质,包括在现实世界中展现的对抗性样例,以及在训练过程中如何充分利用他们来使模型更适应这些对抗性样例。
6. 理解机器学习系统
虽然人们已经见识到了深度学习的强大能力,但更重要的是理解它为什么起作用,什么时候不起作用。在另一篇获得 ICLR 2017“最佳论文奖”的论文中,团队向大家阐明,目前的机器学习理论框架无法解释深度学习方法的一些杰出的结果。团队展示了,通过最优化方法找到的最小值的“平坦度”,并不像最初想象的那样与良好的泛化紧密相关。为了更好地理解深层架构下的训练过程是如何进行的,谷歌大脑团队发表了一系列分析随机矩阵的论文,因为它们是大多数训练方法的出发点。
了解深度学习的另一个重要途径就是更好地衡量他们的效果。在最近的一项对众多生成对抗网络的比较的研究中,团队展示了良好的实验设计和统计严谨性的重要性,他们发现许多流行的对生成模型的增强方法实际上并没有提高它的性能。我们希望这项研究能够为其他研究人员提供一个可靠的实验研究的范例。
团队正在开发能够更好地解释机器学习系统的方法。在三月份,团队与 OpenAI,DeepMind,YC Research 等合作,宣布推出 Distill,这是一本致力于支持人类对机器学习的进行理解的在线开放式科学杂志。它因对机器学习概念的清晰阐释和在出色的交互式可视化工具而广受赞誉。在第一年,Distill 上就发表了许多启发性的文章,旨在了解各种机器学习技术的内部工作机理,我们期待 2018 年迎来更多可能。
图丨特征可视化
7. 机器学习研究的开源数据集
数据集对于机器学习研究的重要性不言而喻。像 MNIST, CIFAR-10, ImageNet, SVHN, and WMT 这样的开源数据集一直推动着机器学习飞速发展。谷歌大脑团队和 Google Research 在过去一年一直积极地为开放式机器学习研究公开有趣的新数据集,提供更多的大型标记数据集,包括:
YouTube-8M: >用 4716 个不同类别标注的 7 百万 YouTube 视频
YouTube-Bounding Boxes: 来自 21 万 Youtube 视频的五百万个边际框标注
Speech Commands Dataset: 成千上万人所说的简短的命令字
AudioSet: 用 527 个声音事件标注的 2 百万个 10 秒的 YouTube 剪辑
Atomic Visual Actions (AVA): 57000 个视频剪辑片段中 21 万个动作标注
Open Images: 9M 的通过 6000 个类别对创意共享许可图像进行标注
Open Images with Bounding Boxes: 1.2M 的共计 600 个分类的边界框标注
图丨YouTube-Bounding Boxes dataset 的例子:边界框标注的物体
8.TensorFlow 和开源软件
纵观团队的历史,许多构建的工具已经在 Google 的许多产品应用,进行机器学习研究并部署机器学习系统。2015 年 11 月,第二代机器学习框架 TensorFlow 开源,团队希望整个机器学习社区能够从中受益。在 2017 年 2 月,TensorFlow 1.0 发布。在 11 月,1.4 版本发布,这其中包括重要的添加内容:用于交互式命令式编程的 Eager execution,TensorFlow 程序的优化编译器 XLA,以及适用于移动设备和嵌入式设备的轻量级解决方案 TensorFlow Lite。现在,预编译的 TensorFlow 二进制文件现在已经在 180 多个国家被下载了超过一千万次,GitHub 上的源代码现在已经有超过 1200 个贡献者。
图丨TensorFlow 用户分布图
今年 2 月,首届 TensorFlow 开发者峰会成功举办,吸引了 450 多人亲临现场参加活动,6500 人观看直播,在全球 35 多个国家和地区举办了超过 85 场的本地观看活动。所有会谈都被记录下来,主题包括新特性,使用 TensorFlow 的技巧,或者对低层次 TensorFlow 抽象的探讨。团队预计于 2018 年 3 月 30 日在湾区举办另一个 TensorFlow 开发者峰会。
在十一月,TensorFlow 庆祝其开放源代码项目两周年。TensorFlow 是 GitHub 上排名第一的机器学习平台,也是 GitHub 上的五大软件库之一,已经被许多大大小小的公司和机构所使用,包括 GitHub 上超过 24,500 个与 TensorFlow 相关的仓库。现在,许多研究论文都与开放源码的 TensorFlow 实现和研究结果一起出版,使社区能够更容易地理解所使用的确切方法,并重现或扩展工作。
除了 TensorFlow 之外,团队还在浏览器中发布了 deeplearn.js,一个开源的硬件加速深度学习的 API 实现(无需下载或安装任何东西)。deeplearn.js 主页有许多很好的例子,其中包括 Teachable Machine, 可以使用网络摄像头训练的计算机视觉模型,以及 Performance RNN,一个基于实时神经网络的钢琴作曲和演奏效果的演示。团队将在 2018 年继续开展工作,以便将 TensorFlow 模型直接部署到 deeplearn.js 环境中。
领取专属 10元无门槛券
私享最新 技术干货