前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >AugLy: Facebook Research新开源多模态数据增强库,鲁棒模型好帮手。

AugLy: Facebook Research新开源多模态数据增强库,鲁棒模型好帮手。

作者头像
McGL
发布2021-07-07 09:51:50
1K1
发布2021-07-07 09:51:50
举报
文章被收录于专栏:PyVision

地址: https://github.com/facebookresearch/AugLy

研究内容:

我们新开源了 Python 库 AugLy,目的是帮助 AI 研究人员使用数据增强来评估和改进机器学习模型的鲁棒性。增强包括对一段内容进行各种各样的修改,从重新裁剪照片到改变录音的音调。创建不被这些变化愚弄的 AI 是很重要的。AugLy 通过提供复杂的数据增强工具来创建样本以训练和测试不同的系统。

AugLy 是一个新颖的开源数据增强库,它结合了多种模态: 音频、图像、视频和文本,这在很多 AI 研究领域越来越重要。它提供了100多个数据增强功能,专注于互联网上的真人在 Facebook 和 Instagram 等平台上对图片和视频所做的事情。例如,这包括了覆盖文本、表情符号和截屏转换。

使用真实世界的增强,结合不同的模态,例如文本和图像或音频和视频,可以帮助机器更好地理解复杂的内容。例如,文本短语 "love The way you smell today" 的含义在叠加到一张臭鼬图片上时就会完全改变。这也更类似于人们为了了解周围的世界而从多种感官获取信息的方式。随着数据集和模型变得越来越多样化,能够在一个统一的库和 API 下转换项目的所有数据是非常有用的。

我们在 AugLy 提供的数据增强集也直接受到我们在 Facebook 平台上看到的数据转换类型的影响,因此这对于与社交媒体应用程序的模型或数据相关的从业人员来说特别有用。

工作原理:

AugLy 是由我们西雅图和巴黎办事处的全球研究人员和工程师开发的。它有四个子库,每个子库对应不同的模态。每个库遵循相同的接口: 我们提供基于函数和基于类的格式的转换,并提供强度函数,帮助你理解转换的强度(基于给定的参数)。AugLy 还可以生成有用的元数据,帮助你了解数据是如何转换的。

我们汇集了来自不同现有库的许多扩展,以及一些我们自己编写的以前不存在的扩展。例如,我们的一个扩展功能可以将图片或视频叠加到社交媒体界面上,使其看起来像是用户在 Facebook 这样的社交网络上截取的图片或视频,然后重新分享。这对于我们的用例(以及很多其他用例)来说是一个有用的扩展,因为 Facebook 上的用户通常以这种方式重新分享内容,我们希望我们的系统能够识别出这是相同的内容,哪怕被界面元素分散了注意力。

为什么这很重要:

数据增强对于确保 AI 模型的鲁棒性至关重要。如果我们能够教会我们的模型对数据的不重要属性的扰动保持稳健,模型将学会关注特定用例中数据的重要属性。

在 Facebook,一个重要的应用就是检测特定内容的精确副本或近似副本。例如,同一条误导信息可以以略有不同的形式出现,比如一张经过修改的图片,或者用滤镜或新文本覆盖来增强。通过使用 AugLy 数据增强 AI 模型,当有人上传了已知的侵权内容,如歌曲或视频时,他们能够识别出来。

利用 AugLy 训练模型检测近似复制内容,意味着我们可以主动防止用户上传已知的侵权内容。例如,SimSearchNet,是一个基于卷积神经网络的模型,我们专门用来检测近似精确的复制的,就使用了 AugLy 来增强训练。

除了使用 AugLy 训练模型外,该库还可用于确定模型对于一组增强的鲁棒性。事实上,AugLy 被用来评估 deepfake 检测模型在 Deepfake Detection Challenge 竞赛中的鲁棒性,最终确定谁是前五名的获胜者。

我们看到人们通过转换内容来试图规避我们的自动化系统。例如,该库支持图像增强,比如裁剪、填充图像、覆盖 meme 风格的文本以及截屏和重新分享图片。数据增强用途广泛,可以帮助研究人员方方面面的研究,从目标检测模型到识别仇恨言论到语音识别。

作为 Facebook AI 在推进多模态机器学习方面的更广泛努力的一部分,从 Hateful Memes Challenge 到用于训练下一代购物助手的 SIMMC data set 都有 AugLy 的身影。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-06-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 PyVision 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 研究内容:
  • 工作原理:
  • 为什么这很重要:
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档