Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【AI 工厂】Facebook 计算机视觉 Lumos平台,内容理解之上的图像技术

【AI 工厂】Facebook 计算机视觉 Lumos平台,内容理解之上的图像技术

作者头像
新智元
发布于 2018-03-27 06:04:32
发布于 2018-03-27 06:04:32
9960
举报
文章被收录于专栏:新智元新智元

【新智元导读】Facebook 官方博客最新发表文章,详细介绍其 AI 平台 FBLearner Flow 及建立在上面的专用于图像和视频理解任务的 Lumos 平台。Facebook 介绍了利用该平台的图片内容描述和图片搜索技术,这些技术建立在系统能够“理解”像素级的图像内容基础上,将为更丰富的产品体验铺平道路。

回想一下你最近点赞的帖子——非常可能是包含图片或视频的。但是,直到最近,在线搜索包括图像搜索都还一直是文本驱动(text-driven)的技术,是否能搜索到某一张图像取决于它是否有充分的标记或有正确的标题。但现在,技术的进步已经使图像搜索发生变化。

变化是由于我们已将计算机视觉技术推动到下一个阶段,其目标是理解像素级的图像。这有助于我们的系统做图像方面的任务,例如识别图像中的内容,图像中的场景属于什么类型,是否是著名的地标,等等。反过来,这也有助于我们更好地为视觉障碍者描述图片,并为带有图片和视频的帖子提供更好的搜索结果。

创建“AI工厂”

为了将 AI 编入到 Facebook 的工程结构中,我们首先需要一个通用的平台,以让我们的工程师能够大规模地利用它。我们称这个平台为 FBLearner Flow,其设计让工程师们在构建机器学习管道时不需担心配置机器或为实时通信处理服务扩展。我们目前每月在 FBLearner Flow 上运行120万次以上的 AI实验,大约是一年前的6倍。

随着这个平台的使用范围越来越广,我们在它上面构建的项目越来越多。从工具到自动化机器学习过程到专用的内容理解引擎,我们已经建立起一个积极的生态系统,允许工程师编写在许多机器上并行的训练管道,以让其他工程师重复使用。

计算机视觉平台

FBLearner Flow 最初是 Facebook AI Research(FAIR)的一个小项目,后来达到生产规模后,FBLearner Flow 平台和整个团队转移到应用机器学习团队,现在已经是 Facebook 当前的计算机视觉团队的发动机一般的存在。

Lumos 是建立在 FBLearner Flow 之上的,专为图像和视频理解而建的平台。Facebook 工程师们不需要为使用 Lumos 训练和部署新模型而接受深度学习或计算机视觉技术的培训。通过我们提供的新标注数据,以及我们的团队构建的应用程序的有注释数据,Lumos 平台一直在不断改进。

深度学习的进步让图像分类技术得到了重大改进——诸如“图像中有什么?”和“图像中某个对象在哪里?”这类的问题已经能得到更准确的回答。这项研究的进步是通过设计检测和分割给定图像中的对象的技术推动的。

这些技术在 Facebook 上的应用,是让照片通过一个深度学习引擎,该引擎能够分割图像并识别图像中的对象和场景,以及为照片附加更多的意义。这些应用提供的丰富数据集可以为 Facebook 的任何产品或服务所用。已经有数十个团队在 Lumos 上训练及部署了超过200个视觉模型,包括用于令人反感的内容检测,垃圾信息检测,自动添加图片说明等目的。这些应用程序已经产生广泛的影响,用户可以从我们的连接实验室(Connectivity Labs)搜索到使用该技术的团队。

描述图片内容

我们目前正在将图像理解技术应用于改善图片的自动替换文本(AAT),该技术可以为视障人士描述照片的内容。

此前,这些图片说明只能描述照片中的对象。今天,我们宣布我们已经为自动图片说明技术添加了一组共12个动作,所以现在图片描述已经能包括“人们走路”,“人们跳舞”,“人们骑马”,“人们玩乐器”等等包含动作的句子。

这个 AAT 的更新分为两部分,包括允许快速、可扩展迭代的 Lumos。在 FB 上分享的照片中有相当一部分包含人物,因此我们专注于涉及人物的自动图片描述。我们的 AI 团队收集了在 FB 上分享的包含人物的13万张公开照片作为样本。由人类标注者来为这些样本照片写出单行的描述,就像他们正在为视力受损的朋友描述照片一样。然后,我们利用这些标注构建了一个机器学习模型,可以无缝地推断照片中的人物的动作,以便在下游用于AAT。

图:people_riding_on_animal 模型。

Lumos 允许对此任务进行快速迭代,利用先前为另一个任务训练的模型中的标记样本的接口。例如“假如我们要训练一个“人在骑马”的分类器,并且想添加包含“马”(没有人骑)的图像样本,我们可以使用另一个模型的一部分标记样本,该模型学习把图片分类为是否包含“马”。

图:相同照片上的相似模型的分数比较。

Lumos 允许通过检索和聚类的组合来生成训练数据。给定一组标签或检索项,平台可以检索具有匹配那些标签的图片说明的部分公共照片。然后这些照片被按语义聚类,以便更快地进行标记——Lumos 用户可以选择把聚类标注为他们的用例的负面或正面样本,这可以在聚类级别进行或单独为聚类中的每个图像标注。这有助于使初始集的分类任务更易进行,随后是为了获得更高精度/查全率的分类器的迭代训练。

虽然 AAT 的应用很重要,因为它可以为 Facebook 的视障用户带来全新的访问体验,但还有其他只提供方便的应用,例如发掘新的搜索参数。

更具描述性的照片搜索技术

使用 Lumos,我们能够为我们的社区提供视觉层面的搜索。举个例子:当你看着照片回忆自己最开心的时光时,很难确切地想起来什么时候发生了什么事,以及是谁拍了那张照片。

今天,我们宣布我们已经建立了一个搜索系统,能够利用图像理解技术,对大量的信息进行排序,并快速、方便地把最相关的照片显示在最前面。举个例子,在搜索“black shirt photo”时,系统能够“看到”照片中是否有黑色的衬衣,并根据这个内容进行搜素,即使这些照片没有该信息的标记。

使用 Facebook 的自动图像分类器,就像在AAT示例中使用的那样,用户可以搜索朋友们共享的所有照片,这种搜索方式是基于图像的内容而不是寻找特定的标签或周围的文本。

为了确保搜索结果与查询条件相关,我们的系统必须能对实际的照片内容有很好的理解。我们的团队使用最先进的深度学习技术来处理数以十亿计的照片并理解他们的语义。具体来说,照片搜索团队使用以下信号来更好地为照片排序:

  • 对象识别(Object recognition):底层的图像理解模型是一个有数百万个可学习的参数的深度神经网络。该网络建立在最先进的深度残差网络的顶部,使用数千万张带标记的照片进行对象识别的训练。它可以自动预测一系列丰富的概念,包括场景(例如花园),物体(例如汽车),动物(例如企鹅),地点和景点(例如金门大桥)和衣服物品(例如围巾)。
  • 图像嵌入(Image embeddings):图像嵌入也生成高级语义特征,这是深度神经网络最后几层的输出的量化版本。这种丰富的信息对改善图片搜索结果很有用。

原始语义特征是高维的浮点向量,使用大量的存储空间以进行索引——尤其是我们要索引的照片量非常大。利用量化技术,特征被进一步压缩成几比特(bits),同时仍保留大部分语义。比特表征(bit representation)被用作照片的紧嵌入(compact embedding),并且可以直接用于排序,检索和重复照片删除。

构建此系统的一种方法是从图像中提取预测的概念和类别,然后解析查询项以链接到实体并提取概念,然后使用相似性函数来确定两组概念的相关性。

这种方法在开始阶段挺好,但团队没有止步于使用预测的图像类比,我们进一步使用查询和图像的共同嵌入,以显著提高精度和查全率。

我们把它作为一个排序问题的多模态学习。此外,我们还使用图像之间的相似性度量来确保图像搜索结果的多样性。

下一步是什么?

通过 Lumos 将图像分类器投入到生产中需要许多团队的大量工作。虽然这些新的发展值得注意,我们仍只抓住了自助计算机视觉平台的可能性的表面,前面仍有漫长而激动人心的道路。随着计算机视觉模型越来越好,Facebook 也正在进入视频和其他沉浸式的格式,Lumos 将以可靠、快速、可扩展的方式提供新的可能性,并在不久的将来为更丰富的产品体验铺平道路。

原文地址:https://code.facebook.com/posts/1259786714075766/building-scalable-systems-to-understand-content/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-02-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Facebook 图像机器学习平台 Lumos 升级,不是计算机视觉专业也能使用
【新智元导读】Facebook的图像机器学习处理Lumos日前进行了系统更新,在原来对照片和视频进行分类的基础上,运行速度更快,自动识别图像边界,能解释图中人物行为,并且利用以往的知识。Lumos 依靠Facebook的图像文本转换系统和 FBLearner Flow,Facebook表示其目标是使其达到像素般精确。 Facebook去年在Web Summit会议上公布了Lumos平台。它是一个可扩展的系统,用于对照片和视频进行分类。它可以扫描照片,快速训练A.I.识别新照片,查看照片中的对象并描述对象,从
新智元
2018/03/27
8930
业界 | Facebook 图像识别平台 Lumos 是什么?
大多数人懒得给照片加标签。如果你属于这一类(大概率事件),那么你一定知道搜索某张照片有多辛苦。 但这很有可能即将成为过去。 本周,Facebook 披露了其机器学习平台 Lumos 的更多信息: Lumos 将使用户们利用相片内容进行搜索,而不是图片名称或是标签。 Facebook 应用机器学习负责人 Joaquin Quiñonero Candela 解释说: “换句话说,搜索‘黑衬衫照片‘时,系统能识别出每张照片里是否有黑衬衫,并据此搜索;即便照片并没有被添加标签也没有关系。 Lumos 利用了计
AI科技评论
2018/03/09
1.7K0
业界 | Facebook 图像识别平台 Lumos 是什么?
Facebook推出人工智能引擎DeepText,让机器更好的理解语言和内容
【编者注】本文作者:Ahmad Abdulkader、Aparna Lakshmiratan、Joy Zhang,由机器之心编译,参与:孙睿、微胖 引言:前几天,有新闻报道在查举不良图片方面,Face
镁客网
2018/05/28
7520
通过照片内容搜图,Facebook这个新技能是如何实现的?
现在,你可以在Facebook上通过描述照片中的内容来搜索图片了:手工添加的图片标题和标签都不再重要。 这个功能的背后,是Facebook计算机视觉平台Lumos,他们在去年四月开发了这一平台,是为了把Facebook上的图片描述给有视觉障碍的用户听。 新功能详解 为了实现这个功能,Facebook使用了上百万张照片来训练深度神经网络,好在他们的平台上已经有数十亿张加了标题的图片。Facebook建立的模型通过某种概率性将搜索语句与从图片提取的特征匹配起来。 将搜索词和照片匹配起来之后,Face
量子位
2018/01/30
4.9K0
通过照片内容搜图,Facebook这个新技能是如何实现的?
【计算机视觉】一、计算机视觉概述
  计算机视觉是人工智能的重要组成部分,是赋予机器自然视觉能力的学科,相当于是人工智能的大门。
Qomolangma
2024/07/30
4200
【计算机视觉】一、计算机视觉概述
当机器学习遇到计算机视觉——上篇
image.png image.png 计算机视觉在上一个世纪60年代脱胎于人工智能与认知神经科学,旨在通过设计算法来让计算机自动理解图像的内容。为“解决”计算机视觉这一问题,麻省理工学院在1966年把它作为一个夏季项目正式提出,但人们很快发现要解决这个问题可能还需要更长的时间。在50年后的今天,一般的图像理解任务虽未得到完美解决,但也有了较为显著的进展。计算机视觉算法随着其商业化的成功,开始得到更广泛的关注,并实现了较大的飞跃。其中包括交互式分割算法(例如微软office中去除图片背景的功能)、图像搜索、
架构师研究会
2018/04/09
6080
当机器学习遇到计算机视觉——上篇
叶聪:朋友圈背后的计算机视觉技术与应用
AI要走进千家万户,融入整个社会,而不仅仅是曲高和寡的模型。所以现在非常讲究AI场景化,使它成为与产业相关的部分。
腾讯云开发者社区技术沙龙
2018/08/13
1.9K0
深度 | Facebook AML实验室负责人: AI技术落地的N种方法
(Facebook AML实验室负责人 Joaquin Candela) 编者按:在Facebook,有两个实验室领导着AI发展方向,一个是Yann LeCun领导的FAIR实验室,偏向AI的基础研究;另一个,就是AML实验室,偏向机器学习应用,负责将AI技术落地在Facebook各种产品。本月初,AML实验室负责人Joaquin Candela在@Scale大会上发表了一次演讲,他讲述了Facebook在规模化应用AI技术的方方面面,包括Facebook人工智能母体FB Learner Flow平台、
AI科技评论
2018/03/12
1.3K0
深度 | Facebook AML实验室负责人: AI技术落地的N种方法
深入Facebook机器学习部门:服务、模型、框架和硬件(贾扬清等HPCA论文)
来源:research.fb.com 作者:Kim Hazelwood et al. 编译:刘小芹 【新智元导读】近日 Facebook 研究团队公开一篇 HPCA 2018 论文,作者包括 Caffe 作者贾扬清等人,深度揭示了 Facebook 内部支持机器学习的硬件和软件基础架构。Facebook 的几乎所有的服务都广泛应用机器学习,其中计算机视觉只占资源需求的一小部分。此外,Facebook 依赖多种机器学习方法,包括但不限于神经网络。硬件方面,用CPU 做推理,CPU 和 GPU都用于训练,并且进
新智元
2018/03/20
1.2K0
深入Facebook机器学习部门:服务、模型、框架和硬件(贾扬清等HPCA论文)
当机器学习遇上计算机视觉
作者:Jamie Shotton,Antonio Criminisi,Sebastian Nowozin 机构:微软剑桥研究院 译者:andydoo,kbyran 摘自:译言(www.yeeyan.org) 计算机视觉在上一个世纪60年代脱胎于人工智能与认知神经科学,旨在通过设计算法来让计算机自动理解图像的内容。为了“解决”机器视觉的问题,1966年,在麻省理工学院,这个问题作为一个夏季项目被提出,但是人们很快发现要解决这个问题可能还需要更长时间。在50年后的今天,一般的图像理解任务仍旧是不能得到完美解决
大数据文摘
2018/05/21
5590
【重磅】Facebook 开源计算机视觉系统,从像素水平理解图像(附论文及代码)
【新智元导读】昨天谷歌开源了TensorFlow自动文本摘要生成模型,今天 Facebook 宣布开源计算机视觉系统,称该系统能“从像素水平理解物体”,Facebook 希望开源能加速计算机视觉的发展。不过,Facebook 并没有在自家产品中使用这些工具,像这样落实到具体应用前就开源,跟通常所说的“开源”有些不同。对此,Facebook 人工智能团队 FAIR 的负责人 Yann LeCun 曾表示,正是因为 FAIR 做基础的、不受制于公司短期效益的研究,才能真正推进人工智能技术发展。无论如何,开源将加
新智元
2018/03/23
1.1K0
【重磅】Facebook 开源计算机视觉系统,从像素水平理解图像(附论文及代码)
【重磅】Facebook首次公开内部机器学习平台,启动AI帝国
【新智元导读】Tensorflow凭“谷歌”“开源”两个标签自2015年底发布以来便名震深度学习圈。而前年底Facebook就打造其专属ML平台FBLearner Flow,大幅提高员工工作效率。今天,FB工程师首次披露该平台细节,公司意欲进一步提高速度、效率,迈向ML自动化。虽然目前仍限内部使用,但不排除FB这款“Flow”未来也将开源。两大巨头的两股“Flow”如何较量?先从了解FBLearner Flow开始。 Facebook 现在在信息推荐、过滤攻击言论、推荐热门话题、搜索结果排名等等已经使用了
新智元
2018/03/22
1.8K0
【重磅】Facebook首次公开内部机器学习平台,启动AI帝国
针对计算机视觉一些问题的分析
至少在过去十年间,解决计算机视觉领域内各种问题的技术已经有了很大的进步,其中一些值得注意的问题有图像分类、对象检测、图像分割、图像生成、图像字幕生成等。在这篇博客文章中,我将简要地解释其中的一些问题,并尝试从人类如何解读图像的角度比较这些技术。我还将把这篇文章引导到 AGI(人工智能)领域并加入我的一些想法。
AI研习社
2018/09/25
6270
针对计算机视觉一些问题的分析
旷视首席科学家孙剑:计算机视觉的变革和挑战 | 北大AI公开课笔记
周三晚,北京大学“人工智能前沿与产业趋势”第三讲,本期旷视研究院院长孙剑授课主题为“计算机视觉的变革与挑战”,分享了计算机视觉和深度学习领域的一些研究进展。
量子位
2018/07/24
6220
旷视首席科学家孙剑:计算机视觉的变革和挑战 | 北大AI公开课笔记
Facebook AI 野心与LeCun的小目标:拥有类人智能的对话助理
【新智元导读】 不同于以往的“深度好文”,这篇描写 Facebook AI发展的文章不仅仅聚焦在机器学习技术,更多地强调各种先进的机器学习模型与Facebook 本身的基础架构、大规模部署和产品管道之间的配合,并强调硬件的支撑能力。对于公司来说,得应用者才能得天下,文章列举了 Facebook 从2012年来在图像识别和视频识别等方面的技术应用,强调AI 技术的发展中学术实验与产业应用之间存在显著差异。不管是扎克伯格还是Yann LeCun,他们的目标都是打造具有类似人类智力的对话代理,AI 毫无疑问是F
新智元
2018/03/27
7930
Facebook AI 野心与LeCun的小目标:拥有类人智能的对话助理
大厂技术实现 | 图像检索及其在淘宝的应用 @计算机视觉系列
图像检索任务指的是,给定查询图像,从图像数据库中找到包含相同或相似实例的图像。典型应用之一就是电商商品检索,如淘宝拍立淘,只需要用户随手拍照即可精准检索,提高了电商购物的体验。本篇我们来看看淘宝拍立淘背后的实现方案和依托的计算机视觉技术。
ShowMeAI
2021/11/24
2.9K0
大厂技术实现 | 图像检索及其在淘宝的应用 @计算机视觉系列
Facebook如何运用机器学习进行亿级用户数据处理
编译 | 刘畅、尚岩奇、林椿眄 审校 | reason_W 2017年末,Facebook应用机器学习组发布最新论文,对整个Facebook的机器学习软硬件架构进行了介绍。纵览全文,我们也可以从中对Facebook各产品的机器学习策略一窥究竟。论文中涉及到机器学习在全球规模(上亿级数据处理)上的全新挑战,并给出了Facebook的应对策略和解决思路,对相关行业和研究极其有意义。 摘要 机器学习在Facebook的众多产品和服务中都有着举足轻重的地位。 本文将详细介绍Facebook在机器学习方面的软硬件
用户1737318
2018/06/05
8220
图像内容的「深度」理解及其应用
本文作者:朱晓龙博士,2015 年毕业于香港大学,主攻计算机视觉和机器学习方向,涉及物体检测,位姿估计,人脸特征点定位,3D 视觉等课题。本科期间参与北京大学智能车环境感知项目,基于 LIDAR 的图像理解工作发表在机器人顶级会议上。2015 年底加入腾讯,在 TEG 内部搜索部工程平台中心参与深度学习平台的开发与应用。长按以下二维码,在腾讯KM上查看本文 Introduction: 交互方式决定未来 云对雨,雪对风,晚照对晴空。——《声律启蒙》 随着设备的迭代,数据的形态也越来越丰富。PC 时代的键
腾讯技术工程官方号
2018/01/26
3.3K0
【腾讯计算机视觉团队首次曝光】AI Lab深度解读CVPR五大前沿
【新智元导读】去年4月成立,今年首次参展的腾讯AI Lab被CVPR录取6篇论文。本届CVPR最热门的研究方向有哪些?显示了计算机视觉应用的哪些趋势?本文带来深度解析和重要论文评述。腾讯方面透露,AI Lab的计算机视觉团队(CV团队)是最早组建的研究团队之一,目前有十多位基础研究科学家,大多拥有国内外院校博士学位,并与一个较大的应用工程师团队紧密合作,由计算机视觉和机器学习专家刘威博士领导。 本文将深度解析本届CVPR热门研究。第一部分是五大前沿领域的重点文章解析,包括低中层视觉、图像描述生成、3D视觉、
新智元
2018/03/23
1.2K0
【腾讯计算机视觉团队首次曝光】AI Lab深度解读CVPR五大前沿
从CVPR 2021的论文看计算机视觉的现状
计算机视觉(Computer Vision, CV)是人工智能领域的一个领域,致力于让计算机能够像人类一样识别和处理图像和视频中的物体。以前,计算机视觉只能在有限的能力下工作。但由于深度学习的进步,该领域近年来取得了巨大的飞跃,现在正在迅速改变不同的行业!
deephub
2021/07/23
4490
从CVPR 2021的论文看计算机视觉的现状
推荐阅读
相关推荐
Facebook 图像机器学习平台 Lumos 升级,不是计算机视觉专业也能使用
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档