【新智元导读】 李飞飞在妇女节这天完成了她加入谷歌云后的首秀——在谷歌 Cloud Next 17上发表主旨演讲。她在会上发布了谷歌云面向机器学习和人工智能的一系列新API 以及收购机器学习竞赛平台Kaggle的消息。主旨演讲中,她提到了自己加入谷歌云的初衷,强调了“AI 民主化”概念。新智元带来独家文字实录和PPT。
美国当地时间3月8日,谷歌 Cloud Next 17 大会举行。去年年底加入谷歌云的李飞飞教授首次亮相,以谷歌云负责人的身份,发布了谷歌云的一系列新API以及收购机器学习竞赛平台Kaggle的消息。主旨演讲中,提到了自己加入谷歌云的初衷,强调了“AI 民主化”的概念。
谷歌 Cloud Next 云技术大会于是继去年3月份谷歌召开首届Cloud Next大会后的第二届会议。本次会议将 Google 高管、客户、合作伙伴、开发人员、IT决策者、Google工程师等聚集在一起,共同探讨和构建云技术的未来。几位重要的演讲嘉宾除李飞飞外,还有Google 首席执行官 Sundar Pichai、Google 母公司 Alphabet 执行主席 Eric Schmidt以及谷歌大脑负责人Jeff Dean 。
本场大会的关键词可归纳如下:
1.收购 Kaggle
Kaggle 由 Goldbloom 和 Ben Hamner 于2010年创立,其平台上拥有大约50万名数据科学家。他们的服务开始的很早,尽管也有一些竞争对手,如 DrivenData,TopCoder 和 HackerRank,但由于其定位专注,Kaggle 已经远远甩开了这些竞争对手,基本上已经成为数据科学和机器学习竞赛的大本营。
买下 Kaggle,谷歌相当于买到了一个数据科学家的最大、最活跃的的社区,拥有了这样一个社区,谷歌也将在数据科学家中拥有更大的影响力(尽管由于 TensorFlow 以及其他项目,谷歌的影响力已经很高了)。
Kaggle 与谷歌有一些渊源,但只是最近的事情。本月初,谷歌和 Kaggle 联合举办了一项奖金总额10万美元的机器学习竞赛,竞赛内容是给 YouTube 视频分类。这场比赛也跟谷歌云平台进行了深度整合。
2. 谷歌云新API
谷歌云的特点,用一句话总结,是大规模计算、高集成性和高可靠性,支持TensorFlow。
李飞飞介绍了 Google Cloud 一些新 API ,比如 Video Intelligence API、Cloud Vision API、Cloud Natural Language API、Cloud Jobs API、Cloud ML Engine 等。
其中最重要的是 Video Intelligence API。 新推出的 API 能对视频进行全片分析,提炼全片的故事脉络,记录一共发生了多少个场景、每个具体场景的情节。这有助于对视频进行更精确的标签分类。
2017年1月,李飞飞在北京接受新智元的专访,她提到: “我选择去谷歌的原因就是考虑到人工智能的普世价值,云能够对应各个垂直的领域,比如金融、商业、医疗、制造、农业、教育、娱乐、传媒……这是特别重要的一点。如果说要涉足工业界、产业界,我自己最想学习的是如何真正把人工智能应用到大家需要的地方,而不是光是去画一个饼。”
李飞飞 Cloud Next 17主旨演讲实录
此番在谷歌云大会上的亮相,李飞飞更具体地阐释了她的这一观点,以下是李飞飞演讲全文,新智元听译整理:
李飞飞:大家早上好。我叫李飞飞,是谷歌云、AI/ML 的首席科学家。在谷歌的同事中,我现在仍是谷歌新人(NewGooler)。非常荣幸能站在台上跟大家分享我个人关于AI、机器学习和谷歌云的观点。
世界正在以令人难以置信的速度发生改变,有些人说,我们正在经历第四次工业革命,(在这一阶段)大多数的进步都是由计算的强大力量推动的。作为一名从业20多年的AI 技术人员,我主要的研究领域是机器学习和计算机视觉。我见证了自己所在领域正在从一个崇高的学术追求,变成这一改变的一个最大的驱动力。
但是,改变的发生是小规模的,要看清这种改变需要一定的想象力。
举一个大家熟悉的例子——无人车,不难想象,它在传感器和算法的帮助下,无人驾驶汽车能降低车祸的风险,给我们更多的时间在通勤的时候也可以工作、社交和休息。这对于单个司机本身来说有很大的好处。
但是,如果成千上万的人都拥有了无人驾驶汽车会是怎样的景象?——一夜之间,堵车减少了,停车也会变得格外简单。
如果数百万人都拥有无人车,又会怎样?——整个城市将会被重塑,城市基础设施的使用也会被改变。
这两种规模之间的差异在于参与( Participations),随着科技触及的人群在变大,其影响也会变得更加深远。这也是为什么,AI 的下一步,必须是民主化(Democratization),减少准入障碍,对更大的社区开放,包括开发者、用户和企业家。
谈到AI 的民主化和触及更多的人,谷歌云平台已经为客户提供了大量的应用,每天为数十亿人提供服务,这是大量的参与。
现在,如果你能想象,把这些平台大规模的触及能力和AI 的能力结合起来,让它对所有人都可用,然后我们就可以见到,生命质量的大幅度提高,比历史上任何一个时期都要高。从金融到教育,从制造业到健康,从零售到农业等等,you named it。这也是为什么,通过谷歌云平台所提供的AI能力让我很兴奋的原因。这意味着,终于,我可以分享自己在斯坦福深耕多年的技术和洞见。
另外,顺便提一句,这让我想起在AI 领域与李佳博士的合作。她在多年前是我的第一名博士生,现在和我一起加入了谷歌云,任谷歌云、AL/ML 研发主管。今天是38妇女节,她(李佳)是计算科学领域和AI 领域的另一个大魔王(原文Bad Ass,玩笑,现场掌声雷动)。
要证明AI 在解决现实世界的问题,我们从来不缺乏例子。正如我们在前面看到的demo:通过谷歌Home 访问ebay进行购物。令人印象深刻的是,但这还只是整个行业变革的开始,更多的问题会通过AI 得到解决,并且,用来建造AI应用的工具也正在变得越来越高效,且更容易使用。
这会带来世界剧烈的改变,这一节奏也会比大多数人想象的要快。
接下来看几个例子:
AI 其实一直都对零售业有影响。例如,机器学习算法,已经发生作用,为消费者在购物时提供相关信息,但是,有很多都是在等待被解决。比如,在供应链的自动化以及商品需求的预测上。无人机和无人车革命在变革物流业。智能分析工具在帮助保证安全和理解消费者的流向等等。
另一个例子是媒体和文化,它们也已经受到AI的影响。这是计算机视觉的伟大之处。机器学习已经提供的工具,例如Google Photo,实现图像标签的自动化,Youtube 视频推荐列表等等,媒体体验会越来越用户定制化(user fit)。AR 和 VR 将会更依赖于计算机视觉,动作追踪、环境监测和游戏。越来越多的新闻都会自动生成,让记者能更加聚焦于大新闻和深度故事。AI 在帮助我们设计和个性化我们自己的内容上也将发生越来越重要的作用,比如,视频、音乐、和艺术类工作。
在金融服务领域,我们已经看到,机器学习大量地、智能地起作用,用新的应用预测信用卡风险,增加既有客户的粘度。
保险赔偿将会由智能代理来进行评估。银行业将会更加的虚拟化,因为,对话式机器人将会占领call centers,甚至是无人银行将会管理金融。正如我们早期看到的,我们自己的感知将会被自动化,智能代理可被用于打击犯罪行为,比如洗钱,欺诈。
最后,医疗。这是 AI 最关键的应用场景之一,能真正地提高人们的生活。近年来,在这上面,我们已经看到了AI令人难以置信的成就,几个月前,我在谷歌大脑的同事使用深度学习算法,让计算机能检测出糖尿病致盲早期症状。
现在,想象一下,这样的洞见如果扩展到整个医疗领域,大量的视觉诊断类的工作将会很快被自动化,以帮助医生,减少医生的过劳,然后,将服务扩展到更多没有条件接受治疗的人群。机器也能帮助记录医生访问,管理疾病,带来更多可信赖的、快速的服务。
关于AI 和机器学习能带来的机会,我希望你们和我一样兴奋,但是,对于一些人来说,这些依然是存在高门槛的,它要求大量的专业知识,只有少数大公司可以提供这样资源,这也是为什么,云会是一个理想的平台,这也是为什么,我们会在云AI/ML上投入大笔投资,它会在接下来的几年内,提供强大的、易用的工具,给每一个云的用户进入这一领域的机会。
换句话说,谷歌云正在在将AI民主化,这包含了四步:
首先也是最重要的——计算。AI 要求大量的计算,今天,深度学习算法能轻易地实现数十亿的连接,训练和使用这些模型,这要求计算资源。当然,这也是云要提供的主要功能。去年,我们提供了beta版的云AI/ML引擎,今天,我在此宣布,我们增加了通用性,这是一个平台,能利用计算的能力。然后透明地提供给大家。
简单来说,如果你在开发机器学习模型,不过你喜欢使用你自己所在环境熟悉的工具,比如TensorFlow。ML引擎让你可以专注于自己的解决方案,而将基础设施问题交给我们解决。在训练这些模型的时候,就可以同步将它们上传到云端。ML引擎可以更快、更大规模地处理。最后,只需要将结果从你自己的设备部署到移动设备,在那里训练的成果就可以用于解决现实世界的问题了。
但是,就算有了这么大的计算力,AI 仍旧是计算机科学当中最复杂的问题。对于很多企业和创业者来说,应用 AI 最简便的方式就是使用谷歌提供的 API,并借此使用谷歌已经完全训练好的机器学习模型,去解决常见的问题。这些 API 就像开关一样,能够立即打开任何应用中的智能,使其理解语音、照片,或者翻译文本,理解自然语言。
但是,谷歌的 AI 技术无论是从宽度还是广度上都远远不止于此。在谷歌,我们有无数的 AI 团队,在这些团队里有大量的 AI 研究在进行,覆盖了 AI 的很多领域,包括机器学习。我们研究团队里面,有很多都是在顶尖 AI 期刊和会议上发表了大量 AI 科研论文的作者。我们的团队经常性地在国际比赛中获得最佳论文奖。而且,这些科研的结果很快就会被转化为产品,交付给消费者。在此,我十分高兴地向大家介绍我们最新的一些产品。
Vision API 已经持续稳定地开发了一段时间,这次它有了一些重大的性能提升。
第一个是元数据(meta-data)的扩充,它能够从谷歌知识图谱上百万千万的实体中识别网上的图像。我们也在使用这些元数据,增强整个谷歌图像搜索的能力。第二个提升是光学字符识别(OCR)能力,能够识别图像或含有大量文本的文件(比如法律文件或其他复杂的文书)。
但是,像素的世界远远不止于此。实际上,视频中含有大量的数据,单单是 YouTube,每分钟就会有好几百乃至上千小时的视频上传。要理解视频中这些丰富的内容,是计算机视觉中一个重要的、但一直以来都没有得到很好解决的问题。实际上,很多计算机视觉研究者,包括我在内,都将视频视为数字宇宙的“暗物质”。
今天,我非常高兴地向大家宣布一个由机器智能驱动的全新的 API:视频智能 API。
下面,我们就请我的同事 Sara Robinson 向大家展示这个 API 的细节。
【Sara Robinson 展示】以超级碗谷歌家居的视频为例,仅使用这一个 API,就能告诉我们两个层面的东西:在一个相对高的层面,这个 API 告诉我们视频内容是什么;在一个更粒度(granular)的层面,它能识别出在视频的第几分钟出现了一只狗,不仅如此,它还能告诉我们这只狗的种类是什么。
刚才说了 API 针对一个视频能做什么。对于企业级用户而言,比如媒体工作人员,可能需要从大量不同的视频中,选取一个主题的内容进行编排,或者找出某个具体的实体。在大量视频中使用视频智能 API 检索关键词,比如“垒球”,返回的结果不仅有那些与垒球相关的视频,同时还能显示出在这些视频的第几分钟出现了垒球的画面。在一个相对较长的视频中,视频智能 API 成功识别出了几乎一闪而过的垒球出现的画面,如果要人工来识别,必然需要耗费大量精力和时间。
现场展示表明,谷歌的这个视频智能 API 能从大量的视频数据库中快速而且准确地识别出你想要的东西,而这在几个月之前是连想象都无法想象到的。以往需要几小时的工作,现在几秒钟就能完成了。
李飞飞:非常感谢 Sara 的展示。作为一名计算机视觉研究者,我非常激动。这么多年来,我们终于开始理解“暗物质”,并在这方面踏出了第一步。同时,也让我们的客户能够从嵌入在视频里的大量信息中提取价值。
接下来,我们继续看 AI 民主化的第三个要素——数据。AI 需要海量的数据获取智能,但是构建数据库往往是最艰巨的一个问题。在这方面我深有体会。我带领团队构建了 ImageNet 数据库,ImageNet 为机器视觉社区提供了 1500 万带标签的数据。
很多人都很熟悉 ImageNet 之后的历史了。在 2012 年,ImageNet 成为驱动深度学习革命最重要的要素之一。但是,直到今天,ImageNet 仍然是训练深度学习算法被使用最多的数据库和基准之一。
虽然 ImageNet 取得了卓越的成果,但是从头构建 ImageNet 艰巨而漫长的过程充分显示了整理数据的困难。
我们需要一个更加有效和可扩展的方式,将数据民主地提供给开发者和领域的专家,并最终应用于商业当中。这也是为什么我如此激动地宣布,谷歌云收购 Kaggle 的消息。
在 Anthony Goldblum 和 Ben Hamner 这两位联合创始人多年的努力下,Kaggle 团队建立起了一个含有 85 万多名数据科学家的强大社区,举办各种竞赛,并且不断开放新的数据集。
与谷歌云平台结合,我们给予社群最先进的机器学习环境的直接访问权,并给他们的模型最直接的营销途径。和Kaggle一起,我们正在营建世界上最大的机器学习人才中心。
事实上,kaggle已经与谷歌云一道,主办了最大的视频理解竞赛,称为YouTube-8百万视频理解挑战。
所以说到人才和专家,我们也致力于帮助我们的合作伙伴和客户在他们所需的级别开发更多的机器学习和AI专业知识。
在Google,我们一直在研究方面进行重大投资。每年,Google都会向全球超过250个学术研究项目提供大额资助,支持几十个博士学位学生,并拥有数千名实习生。
此外,谷歌大脑认为,AI专家将是一个未来几年越来越重要的资源,正在采取措施,寻找、教育和强化这一领域的未来领导者。
在谷歌云,与所有这些努力同时,我们也致力于使用我们的专业知识,为我们的客户提供真正的结果。先进的解决方案实验室为客户解决更复杂的问题。 让我们以保险公司用户为例。 他们的许多工程师精通数据科学,有些甚至有机器学习的背景,但他们需要帮助建设一个真正的专业知识基础。
为了做到这一点,一个USAA开发人员团队来到Google的高级解决方案实验室,在那里他们直接从我们自己的机器学习工程师和专家那里学习。这个团队现在正在努力工作,使用他们的新技能,另外也有其他的团队,在以相同的方式接受培训。我认为最有意义的技术是将宝贵的资源转化为可以惠及每个人的东西。
印刷技术帮助大家识字。 印刷技术使得文化超越特权,使书籍成为可负担得起的东西。它们可以填补世界各地的家庭和图书馆的书架。电网则把电力传送到整个社区,使热和光进入千家万户。工业革命的大规模生产意味着,曾经过于昂贵的手工艺品,现在可以丰富数以百万计的人的生活。当然,互联网已经使从报纸到大学课程的一切都很容易分享,他们在一夜间可以被全球观众获得,而且往往是免费的。
这些例子的共同点是从独占到无所不在的转变。 我相信AI可以以我们前所未见、无法想象的规模提供这种转变,以使得全球范围内的优质独享品传播给美国其他地区。
这就是为什么我邀请观众中的每个人都参与其中。我们在谷歌云正在打造这些工具,但使用权在你们。
我们花了几年的时间来证明AI具有扫荡性的力量。所以,如果你也在其中,这没什么好惭愧的,因为你并不孤独。
谷歌的开源与生态
人工智能和机器学习毫无悬念地成为了2017年谷歌云计算技术大会的主角。李飞飞作为在计算机视觉和机器学习领域有着20年经验的资深研究者,现在正在领导谷歌云朝着AI和ML的方向不断前进。
谷歌云在市场上面临的竞争对手其实不少,比如亚马逊。李飞飞1月接受新智元专访时曾对市场情况谈过自己的观点,她说:
“谷歌是世界上 AI 力量最深厚的公司,也许这一两年大家才看到,但是在学术界这么多年了,互相学习交流、合作最频繁的公司就是谷歌。谷歌的 AI-First 是真心实意的 AI-First。AI 已经大量应用在它的产品当中,从搜索到设备再到云。不是说现在 AI 火了谷歌才开始做 AI,不管是计算机视觉还是自然语言处理,还是机器学习,到后来的深度学习,谷歌大脑是在工业界第一个搭建深度学习大平台的机构,这一切都是用行动表示出来、实实在在看得到的,这样的技术实力、AI实力非常难得。所以,我对谷歌非常有信心。”
另外,她还认为:“云是人类最大的计算平台,这是云最大的特色。云最开始可能只是一个存储设施,很快我们就进入到数据,而数据也被称为“digital gold”。数据经过转化得到的就是信息,是商业决策,是对企业具有战略意义的资源。我们平时说,人工智能要帮助人类生活得更美好,但是怎么落地呢?我认为,云可能是目前最好的落地平台之一。”
从TensorFlow 和谷歌云等人工智能基础设施的建设上,可以看到,开源和生态是谷歌核心中的核心。从这届谷歌云大会、从李飞飞的研究中,我们也看到了谷歌在把技术开放给更多用户的决心和努力。