翻译/校对: Mika
本文为 CDA 数据分析师原创作品,转载需授权
谷歌高级研究员Jeff Dean就AI对生活的影响提出了一些有趣的看法。
中英双字视频如下:
针对不方便打开视频的小伙伴,CDA字幕组也贴心的整理了文字版本,如下:
在过去几年,人工智能领域在飞速发展。
你知道未来AI将如何影响你的生活吗? 我有一些想法。
我叫Jeff Dean,我是谷歌的一名高级研究员。这有一定的含义。首先,说明我有点老;其次,我需要花时间攻克我认为对公司很重要的问题。
我在研究人工智能问题,我负责位于加州山景城的谷歌大脑团队,也就是我们的人工智能研究团队。
我们的团队长期以来研究如何让机器智能化,我们还会与谷歌的产品团队合作,从而生产出智能的机器产品。我们希望用智能提升人类的能力,让我们做得更多,消除繁琐重复性任务,并让我们有更多的时间进行创新。
AI的潜力
比起个人计算机的发明、智能手机的普及,AI将更具影响力。AI的概念并不新,在最早的计算机时代就存在,这是开发智能化机器的宏大项目。当中有很多实现的方法,从那时起该领域就深深吸引住了计算机科学家们。
当中最有潜力的方式是机器学习领域。比起让机器掌握一切需要预先知道的内容,我们更希望让机器学会如何学习,从而它们能够通过对世界的观察而学习,并根据观察做出推断。
深度学习是机器学习的一个特殊的领域。在过去四、五年间,深度学习在解决各种问题时优势明显。
人脑如何学习
在深入该问题之前,让我们探讨我们是如何学习的。
我们通过例子和重复练习进行学习。同样,重复练习和例子对机器学习也至关重要。
在机器学习中,我们会让系统接触到我们想让其掌握的行为样本,系统将从那些样本中学习。
看到这张简单的图,我们想教会计算机识别图像中包含的是猫还是狗。我们会给出相应样本,标明图像是猫还是狗。然后把这些样本图像提供给计算机,让计算机回答图中是什么。
如果得到正确的答案就成功了。但如果错了,则需要进行一些调整。从而在下次更有可能得到正确的答案,而不是错误的。
神经网络
深度学习完成这点的方式很特殊,这很重要。即在学习过程中自动构建抽象层。
最低层包括,图像的某个部分是否包含棕色的斑点等。接着上面层次的内容更复杂,比如图像的某部分包含了耳朵、眼睛或胡须。这些特征是学习过程的组成部分,也是深度学习的关键因素。
我们不需要告诉计算机如何区分猫和狗,计算机能学会识别哪些是胡须,而且在猫的图像中出现得更多。在学习过程中这些特征是自动构建的。
神经网络能学习的不仅是分辨猫狗。还能学会分辨成千上万种不同类别的物体,比如消防车、消防船等。神经网络还能从音频中学习,从音频中识别出单词。
比如"外面有多冷”;输入英语的"hello, how are you”,输出相应法语"Bonjour, comment allez-vous”。
它们能输入图像,进行分析。不仅识别类别,它们还能得出句子对图像进行描述,比如"一列蓝黄相间的火车在铁轨上行驶”。这就展现了对图像内容的高度理解。
TensorFlow的应用
深度学习中很棒的一点是,这些内容都能用相对简单的算法和常用的软件框架实现。因此我们构建软件框架,解决不同的问题,并在我们的研究和产品中反复使用。
我们开发的这个系统叫做TensorFlow。我们用它进行该领域的研究开发。去年我们决定将它开源化,我们希望人们能够免费下载这个软件,用于解决他们的问题。我很欣喜的看到人们将其用于不同事物。
比如日本有一位种黄瓜的农民。对黄瓜种植者而言,你需要对黄瓜分成不同的类别进行销售。比如个头小的、中等的、大的、带刺的、不带刺的、直的、弯曲的。在收获时,这个过程很复杂且耗时。
因此这位农民用相机拍照,加上他用TensorFlow训练的计算机视觉模型,从而让视觉模型判定黄瓜的类别。接着装配到传输带上,让转换器把黄瓜放到合适的箱子里。这样在收获季时,大量减轻了人力劳动。
计算力的显著提升
正如我说过的,神经网络并不新的概念,在1980年代到1990年代就已经出现了。当时在解决小型问题时,它们的成果显著。但当时在面对现实的大型问题上,它们效果欠佳。
原因在于我们的计算力不够。对每个样本的模型进行调整,多次处理每个样本,从而构建模型需要大量的计算力。因此我们需要更快的计算机。
幸运的是,如今我们有了更快的计算机。在过去的三十到四十年间,计算机每年都在飞速发展。如今神经网络已能够应用于实际问题。现在你手机中的计算机,比二十年到三十年前的台式机要强一百到一千倍。这是至关重要的,现在我们有足够的计算力。
计算机视觉识别
计算机视觉领域每年有举办比赛,看哪个团队能对给出的图像进行正确分类,图像包括数千个不同类别。
2011年,在人们使用神经网络之前,获胜团队的错误率是26%。比起人类5%的错误率,这个结果不太理想。但在五年后,如今有了深度学习和更多的计算力,错误率降低为3%。在这个任务上,超过了人类的水平,这是具有变革意义的。
如今计算机能够看,这在之前是不行的,这是巨大变革的开端。对于开发机器人来说,这是非常有用的。
看到机器人的例子。这里使用了深度学习教它们做到手眼协调。每个机器人都有摄像头能,模型将从摄像头中获得输入像素,然后直接输出到六个转矩马达的指令,用来控制机器人的不同接口。
它们将通过反复试错练习拾取物品,通过抓爪是否关闭或完成拾取判断是否成功。它们还根据得到的视觉数据,学习对于不同的物品哪种抓取更有效。我们在Amazon买了大量不同的玩具和工具,最终的效果很不错。
医疗领域的运用
我认为机器学习有巨大机遇的另一个领域是医疗领域。
糖尿病性视网膜病变是世界上增长最快的致盲原因。每年有4亿人面临失明的风险,他们需要每年接受筛查,但很多人都没有进行必要的筛查。我们希望通过计算机视觉攻克这个难题。
通常,眼科医生通过筛查眼部图像对症状进行评估,看有没有相关症状。因此我们获取大量这类眼部图像,并让眼科医生进行标注。
如果让两个眼科医生进行评分,他们有60%的几率会得出相同的评估。更担忧的是,若让同一位眼科医生在几小时后评估同一幅图,只有65%的几率他们会得出相同结论,显然这是个难题。
本周早些时候,我们团队在《美国医学会期刊》上发布相关论文。对于这个任务,我们的机器学习模型能够媲美,甚至优于人类眼科医生。
这是很重要的,因为这能让眼科医生更高效。他们能够把时间交给那些真正需要关注的人群,而不是花时间筛查没有这方面问题的人。
艺术领域的运用
再看到一个例子。图宾根大学的Leon Gaty和他来自德国马普研究所的同事,在去年发布了一篇出色的论文。他们的算法能够输入照片和画,将照片输出为画的风格。
这里你看到的是同一个照片,呈现为三种不同艺术家的风格,这是非常惊人的。我认为这是一个好机遇,为艺术家们创造相应工具。让他们与这类系统交互,从中获得灵感并得出更有创意的艺术产物。
从1980年到如今,许多发展都源于计算力的增加。在未来也是如此,我们需要更多的计算力来训练更大型的模型,从而学的更多。同时深度学习也在变革我们设计、开发计算机的方式。
两大特征
神经网络和机器学习算法中有两个有趣的特征。
首先,精确度下降是可以接受的。当你乘以1.2或0.6时,这是没问题的。我们不需要将计算成本用于追求数字上的精确度,那是传统CPU设计的初衷。这将很有帮助,如果你需要进行大量计算,你能更加接近从而进行更多操作。神经网络也是如此。
另一点是,之前我展现的所有机器学习系统和算法只需要依赖少量具体操作,并不需要通常计算机需要的全部指令。它们需要完成矩阵乘法、向量运算、线性代数等,仅此而已。
这让我们能够开发专门的计算机,能够非常好的完成这些任务。在过去三年,我们在谷歌开发了TPU系统,用于加速计算。
这类深度学习算法能够适用于许多问题。我们能够提高计算力,与传统CPU相比达到数量级的提高,这是很强大的。这能让我们在产品中用到更强大的模型,从而得出更好的系统。
未来的需求
让我们看到将来的一些需求。随着用户对系统的要求更高,人们希望系统变得更智能。
"哪些图显示了糖尿病视网膜病变的症状”。
我之前已经说过了,如今这点已能够实现。
"用西班牙语描述这个视频”。
这方面还做得不够好。我们能够很好的描述图像,但对于动态的视频还欠佳,今后这是可能实现的。
"帮我找到与机器人技术强化学习的相关文件,并用德语进行总结”。
这很复杂,但如果我们有相关工具可以做到的话,这将多么高效。
"请从厨房帮我拿一杯茶”。
让机器人在类似厨房的复杂环境中工作是很难的,但之前手眼协调的例子就是不错的开端。
总结一下,AI 能够帮助我们变得更健康、更开心、更高效、更有创造力。
你对AI的未来感到激动吗? 显然我很激动,谢谢大家。