李飞飞在谷歌 Cloud Next 17上发表主旨演讲。她在会上发布了谷歌云面向机器学习和人工智能的一系列新API 以及收购机器学习竞赛平台 Kaggle 的消息。主旨演讲中,她提到了自己加入谷歌云的初衷,强调了“AI 民主化”概念。
大家早上好,我是李飞飞。我是谷歌云、AI/ML 的首席科学家。用谷歌的话来说,我仍然是一个 Noogler (Noogler: New Googler 的缩写,意为谷歌新员工)。很荣幸能站在这个舞台上,与你们分享一些我关于 AI 、机器学习以及谷歌云的想法。
世界正以惊人的速度变化着,有人说我们正处于第四次工业革命。而这在很大一程度上是由惊人的计算机技术所推动的。作为一名在机器学习和计算机视觉方面,从业接近20年的 AI 技术人员,我见证了这一领域从一个崇高的学术追求,成为这一改变的最大驱动力。这一变化发生在许多维度上,需要调动你的想象力才能窥其全貌。
我们举个熟悉的例子:自动驾驶汽车。
它的魅力显而易见,借助传感器和算法,自动驾驶汽车能够降低事故风险。让我们在通勤的路上能够有更多的时间工作、社交以及休息。这对于一个司机来说是非常棒的,但如果成千上万的人都有呢?通过协调这些车辆,能够减少交通拥堵,并且停车过程也将被大大简化。如果成百上千万的人都有呢?城市将被重塑,基础设施的使用将发生根本性的转变。
AI 的参与度
不同规模的区别在于其参与(Participations)。随着技术触及的人群越多,它的影响就会越深远。这也就是为什么AI的下一步,必须是民主化(Democratization)。降低进入门槛,让更多的开发者、使用者以及企业能够接触到。谈到AI的民主化、触及更多的人。
谷歌云平台已经为客户提供了大量的应用,每天为超过十亿的用户提供服务,这是大量的参与。可以想象将该平台的影响力与AI的力量相结合,让更多人有机会接触AI。然后我们可以见证生命质量的大幅度提高,比历史上任何一个时期都要高。从金融到教育、从制造业到医疗、从零售业到农业等等。这就是为什么通过谷歌云传播AI/ML,让我感到兴奋不已。这意味着我终于可以分享,作为一名 AI 研究者我在斯坦福多年的技术和见解。
我也是在这里开始与李佳博士在 AI 领域的合作。她在多年前是我的第一名博士生。我也很高兴她和我一起加入谷歌。她目前担任 AI 机器学习和谷歌云的研发主管,她也是在计算机 AI 领域的"狠角色"。
我们身边不缺少 AI 解决现实问题的例子,例如我们刚刚看的演示。通过谷歌Home和eBay网店交流等等。这些成就让人印象深刻,但这仅仅是整个行业转变的起点,AI 解决了越来越多的问题。我们用来开发 AI 解决方案的工具,这些工具功能越来越成熟,但在使用上越来越容易。这将给世界带来巨变,这一变化发生的速度远比人们想象的快。
让我们看几个例子。
零售业
从 AI 诞生之日起就开始影响零售业。例如,机器学习的算法已经开始发生作用,在购物中给用户提供相关信息。
但是还有很多方面有待解决。比如,供应链的路线和库存最优化;或者预测随着时间发展的需求变化;以及运用无人机导航和自动驾驶汽车,运送用户订购的商品;用于预防损失和安全的智能分析,理解用户行为以及感知库存,从而优化货架空间利用和摆放。
媒体和文化
另一个例子是媒体和文化,它们也已经受到AI的影响。你家里有青少年吗?想不想知道,Snapchat 应用中让他们着迷的猫耳朵和彩虹滤镜是用的什么技术?这是一个很聪明的计算机视觉技术。
机器学习已经让谷歌照片实现图像标签的自动化,以及生成 YouTube 的推荐列表。媒体会更多地利用这些技术,AR 和 VR 技术将依赖计算机视觉进行动态追踪、环境监测以及游戏。
越来越多的新闻内容可以自动生成,让记者聚焦于大新闻和深度故事。AI也可以在帮助我们设计和个性化我们自己的内容。比如音乐、视频和艺术作品方面。
金融业
在金融服务业,机器学习已经在大量地、智能地起作用。为信用卡申请者预测信用卡风险,甚至预测现有顾客拖欠还款。类似先进的应用也出现在工作中。保险赔偿将会由智能代理来进行评估。随着对话机器人接管客服中心,银行业会更加虚拟化,甚至由个人银行管理财务。正如之前汇丰银行(HSBC)所说,这些智能代理可以增加我们的感知,标识一些犯罪行为。比如洗钱或欺诈等。
医疗
最后还有医疗,这是AI最关键的应用场景之一。这真正提升了人们的生活。近几年该领域出现了许多出色的AI成果。
几个月前我在谷歌大脑的同事展示了通过使用深度学习算法。计算机能够探测出糖尿病性视网膜病变,这种疾病可能导致超过4亿人失明。想象一下,这种洞察力可以扩展整个医疗行业。大量视觉诊断类的工作将会很快被自动化。这能够帮助医生并减少开销,将服务扩展到没有条件接受治疗的人群。
机器还可以做一些文书的工作。比如帮助记录医生访问、管理一些慢性病,带来更多可靠且迅速的服务,进而促进在家庭建立全面的智能医院。通过智能传感器追踪医疗行为,保证患者安全,确保卫生操作,增加手术方案。
面对AI和机器学习带来的机遇,希望你们和我一样感到兴奋。但是这依然是一个高门槛的领域,它需要大量专业知识和资源,很少的公司有能力承受。
AI 民主化
这就是为什么云是 AI 的理想平台,这也是为什么我们在云 AI/ML 上大量投资。这会在接下来的几年里,提供强大的、易用的工具。让每位云的用户进入该领域的机会。
换句话说谷歌云正在将 AI 民主化,这主要需要四步:
· 计算的民主化
· 算法民主化
· 数据民主化
· 人才和专业知识的民主化
让我们一一讨论一下当中深意。
首先也是最重要的,AI要求巨大的计算量。如今,深度学习算法能够轻易处理数千万个参数和数十亿的连接。训练和使用这样的模型需要计算资源。当然,这也是云要提供的主要功能。我们提供了测试版的云 ML 引擎。
ML 引擎
今天我在这里宣布它的主要功能。云 ML 引擎是一个平台,能够利用所有的计算能力并透明地提供传递给你。简单来说,你以任何一种你喜欢的方式建立机器学习模型。你自己所在环境熟悉的工具,比如 TensorFlow 库。机器学习引擎让你能够专注于解决方案的创造性,将基础结构部分留给我们。需要训练模型时,将这些上传到云里。机器学习引擎可以更快、更大规模的处理。最后将结果从你的设备部署到移动设备,从而把训练结果用于解决现实问题。
尽管有了大量的计算能力,AI 依旧是计算机科学中最复杂的领域。这对于许多企业 用户来说,仍然是一个很大的障碍。对那些还没准备好建立自己模型的开发者来说,应用 AI 最简便的方式就是通过使用谷歌提供的 API。使用训练好的机器学习模型去解决常见的问题。API 就像一个开关,可以立即激活任何设备上的智能的部分,使其理解语言、图像或者翻译文字,难懂的自然语言。
但谷歌 AI 技术的深度和广度远远不止如此。我们在谷歌有许多研究小组,进行大量的 AI 研究,涉及 AI 和机器学习的众多领域。这些研究者均在顶尖 AI 期刊和会议上,发表多篇学术论文。我们的团队常常获得最佳论文,并且是 AI 比赛中的常胜将军。因此这些研究的成果很快会转化为能够提供给用户的产品和服务。
Vision API
很高兴向大家介绍这方面的一些最新产品,Vision API 目前正在稳定开发中。它具有一些新的性能,首先是 API 元数据的扩展。以便从谷歌知识图谱的百万千万的实体中,识别网上的图像。如今在整个谷歌图片搜索中,我们均使用相同的元数据。
其次增强了光学字符识别(OCR)功能,能够从有大量文本文件的图片中提取文字。比如法律文件或其他复杂的文书。
但像素不仅仅是图片。实际上视频才是互联网数据中最流行的形式之一。仅 Youtube 每分钟就有数百小时的视频被上传。了解视频的丰富内容一直是多年来巨大的技术挑战。实际上我们许多的计算机视觉研究员,一直将视频视为数字宇宙的"暗物质”。
今天非常高兴地宣布一个全新的由机器智能驱动的 API,Vision API。下面请我的同事 Sara Robinson 来更详细地演示这个API,有请 Sara。
【Sara Robinson 展示】
下面我通过一个例子演示 Vision API。我们先来看一个谷歌 Home 的超级碗广告。
前几秒我们可以看到开始是山地景观,然后是房子,城市街道然后是狗、车库。这个视频里面发生了很多场景变化,如果我们要手动把视频内容进行分类,我们需要看完整个视频,并记下每个场景发生的事情。幸运的是 Vision API 可以帮我们完成。
首先在一个相对高的层面,告诉我们这个视频的内容。其次在粒度的层面,还告诉我们视频每个场景中的标签。
如果我们向下翻,我们可以看到它标识出一只狗。并准确指出狗出现在视频的哪个位置,也识别出视频的结尾处的生日蛋糕。再往下可以看到它不仅仅知道这是狗,还能分辨狗的品种。如果我们看到其余部分可以看到,也成功地识别出了视频开始时的山路。
这就是该 API 针对一个视频能做什么。你也可以让它分析多个视频,让我们看看公司如何使用 Vision API 。媒体工作人员可能要处理大量的视频数据。他们要做的一件事就是创建特定类型内容的精彩集锦,或者在大型视频库中搜索特定实体。
让我们用 Vision API 搜索大型视频库,给出我们从中获取的这些元数据。在这里有很多视频,我们假设这家媒体有几个小时的体育视频。但他们只想找到棒球的相关内容,因此让我们视频库中来搜索棒球视频。这不仅告诉我们哪些视频含棒球内容,还告诉我们视频中棒球出现的时间。
我最喜欢的例子是这个,这个视频中棒球只出现了一会儿,但它能够分辨并剪辑出来。而如果我们手动操作的话,必须观看整个视频来寻找特定的场景。如果我们点击这个场景,我们可以看到这个视频是关于,芝加哥小熊队在去年赢得了世界职业棒球大赛。
下面我们再来搜索一下。我住在东海岸,现在很冷。去年下了很多雨,如果现在能在海滩上会很舒服。虽然机器学习并不能把我们带到那里,但它能做的其他的事,即在视频库中的找出所有海滩剪辑。
下面让我们搜索海滩视频,然后可以点击所有含沙滩的视频片段。所以正如这个演示,Vision API 可以轻松地识别大型视频内容库。几个月前这还几乎是不可能的事情,过去要花费几个小时的任务,现在 Vision API 只需要几秒钟。我很开心今天能够让每个人都用到。
所以作为计算机视觉研究员,我非常激动。我已经关注视频分析领域数十年,现在我们终于开始理解数字宇宙的"暗物质"。也让我们的用户能够,从嵌入在视频里的大量信息中提取价值。
AI 民主化的第三个要素是数据。正如我们通过毕生接触世界获得人类智慧,AI 需要大量的数据来发展自己的洞察力。
但这些数据集是最艰巨的一个问题,在这方面我深有体会。我带领团队构建了 ImageNet 数据库。ImageNet 为机器视觉社区提供了1500万个带标签的图片。很多人都很熟悉 ImageNet 出现后的情况。在2012年 ,这是深度学习革命最重要的推动力。至今仍是深度学习算法中,使用最多的训练数据集和基准之一。虽然 ImageNet 的成果很惊人,但是构建 ImageNet 艰巨而漫长的过程,充分显示了当中的困难。
我们需要一个更加有效和可扩展的方式,将数据民主地提供给数据科学家、机器学习开发人员以及领域专家,最终到提供到商业中。
收购 Kaggle
这也是为什么我如此激动地宣布谷歌云收购了 Kaggle。
这两位联合创始人 Anthony Goldblum 和 Ben Handler 多年的努力下,Kaggle 团队建立起了含有 85 万多名数据科学家的强大社区。并且举办各种竞赛并且不断开放新的数据集。
通过与谷歌云平台的结合,社区能够直接访问最先进的机器学习环境并提供直接的途径营销他们的模型。与 Kaggle 一起我们正在创建世界上最大的机器学习人才中心。实际上 Kaggle 已经与谷歌云一起举办了最大的视频理解大赛,名为"YouTube 8 百万视频理解挑战"。
说到人才和专家,谷歌致力于帮助我们的合作伙伴和用户,在他们所需的级别开发更多的机器学习和 AI 技术。我们一直在研究方面进行大量投资,谷歌每年都会为全球 250 多个学术研究项目提供大笔资助,支持几十位博士生并拥有数千名实习生。
我们认为,AI 专业知识将成为未来数年内越来越重要的资源。并在采取步骤,寻找、教育和强化这个领域的未来领袖。在谷歌云与这些努力的同时,我们也致力于用专业知识向客户提供正确的结果。先进的解决方案实验室,能够让拥有远大目标的客户与谷歌直接合作,一同解决复杂的AI问题。
以保险公司 USAA 为例,他们的许多工程师精通数据科学,甚至有机器学习背景。但他们需要帮助建立真正的专业知识基础。为此 USAA 开发团队来到谷歌先进的解决方案实验室。他们直接从我们的机器学习工程师和专家那里学习。这个团队现在在努力工作,使用他们的新技能。另外也有其他的团队 在以相同的方式接受培训。
因此我认为最有意义的技术,是把宝贵的资源转化为可以让所有人受益的东西。
印刷技术帮助人们识字,让识字不再是特权,让书籍成为负担得起的并填满全球各地的家庭和图书馆。电网将电力传送到整个社区,使热和亮从奢侈品变为日常生活必备用品。工业革命的大规模生产意味着,过去昂贵的手工艺品如今能够丰富成百上千万人的生活。当然互联网也使得一切内容,从报纸到大学的课程都变得容易分享。从而可以在一夜间被全球观众获得,而且往往是免费的。
这些例子的共同之处是,从独占转变为无处不在。我相信 AI 可以带来这种转变,以我们前所未见、无法想象的规模。在全球范围内帮助将少数人的特权奢侈品,传播给我们其他人。
这是为什么我要邀请观众中每个人都参与其中。我们在谷歌云正在开发这些工具,但使用权在你们。