Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >复杂环境下的目标视觉检测 | 人工场景与实际场景平行研究三部曲 | 新损失函数与组归一化

复杂环境下的目标视觉检测 | 人工场景与实际场景平行研究三部曲 | 新损失函数与组归一化

作者头像
用户7623498
发布于 2020-08-04 07:01:45
发布于 2020-08-04 07:01:45
6030
举报

研究简析

为解决复杂环境下的目标视觉检测,人工场景与实际场景平行研究三部曲:

1) 场景构建

为模拟实际场景中可能出现的环境条件, 参照实景构建色彩逼真的人工场景,自动得到精确的目标位置、尺寸和类型等标注信息, 生成大量可有效利用的数据集。 人工场景具有可重复性和调整性,为了有效逼近实际场景,得到可利用的基础场景数据,可调整人工场景中的布置,间接对所形成得物理模型和参数逼近修正,定制图像生成要素, 以便从各种角度评价视觉算法。人工场景可通过不断调整和修正,预见未来的实际场景,为视觉算法设计与评估提供超前信息。

2)实验对比

针对人工场景和实际场景数据集对比, 进行全面充分的计算实验,把计算机变成视觉计算实验室,设计和评价视觉算法,提高其在复杂环境下的性能。与基于实际场景的实验相比,在人工场景中实验过程可控、可观、可重复,并且可以真正地产生实验大数据,用于知识提取和算法优化。 计算实验包含两种操作模式, 即学习与训练、实验与评估。学习与训

练是针对视觉算法设计而言,实验与评估是针对视觉算法评价而言。两种操作模式都需要对人工场景数据集和实际场景数据集的对比分析,从而增加实验的深度和广度。

3) 平行执行

将视觉算法在实际场景与人工场景中平行执行,使模型训练和评估在线化、长期化, 通过实际与人工之间的虚实互动,持续优化视觉系统。由于应用环境的复杂性、挑战性和变化性,不存在一劳永逸的解决方案,只能接受这些困难,在系统运行过程中不断调节和改善。平行执行基于物理和网络空间的大数据,以人工场景的在线构建和利用为主要手段,通过

在线bootstrapping(Online bootstrapping) 或困难实例挖掘(Hard example mining),自动挖掘导致视觉算法失败或性能不佳的实例,利用它们重新调节视觉算法和系统,提高对动态变化环境的自适应能力。

前沿引领

案例一:CVPR 2018 | 腾讯AI Lab提出新型损失函数LMCL:可显著增强人脸识别模型的判别能力

腾讯AI Lab通过对特征向量和权重向量的 L2 归一化,把 softmax 损失函数转化为余弦损失函数,从而消除了半径方向上的变化,并在此基础上引入了一个余弦边缘值 m 来进一步最大化所学习的特征在余弦角度空间中的决策边界。具体而言,腾讯AI Lab发明了一种巧妙的算法,称为增强边缘余弦损失函数 (LMCL),其以归一化后的特征为输入,可通过最大化类间余弦边缘来学习高度判别性的特征。

图 1:提出的 CosFace 框架。在训练阶段,使用不同类之间的增强边缘学习判别性的人脸特征。在测试阶段,首先将测试数据输入 CosFace 来提取人脸特征,然后再将这些特征用于计算余弦相似度分数以执行人脸验证和人脸辨识。

基于 LMCL,腾讯AI Lab开发了一种精巧的深度模型 CosFace,如图 1 所示。在训练阶段,LMCL 引导卷积网络使用增强余弦边缘来学习特征。在测试阶段,卷积网络提取出人脸特征,用以执行人脸验证或人脸辨识。其贡献如下:

1、腾讯AI Lab接受了最大化类间差异和最小化类内差异的思想,提出了一种全新的损失函数 LMCL,可用于为人脸识别学习高度判别性的深度特征。

2、根据 LMCL 所带来的超球面特征分布,我们提供了一个合理的理论分析。

3、在 LFW、YTF 和 Megaface 等流行的人脸数据库上,腾讯AI Lab提出的方法在大多数基准上都优于之前的最佳表现。

案例二:何恺明、吴育昕最新成果:用组归一化替代批归一化

组归一化介绍:视觉表征的通道并不是完全独立的。SIFT、HOG 和 GIST 的经典特征是符合分组特征的,其中每组信道由某种直方图(histogram)构成。这些特征通常通过在每个直方图或每个方向上执行分组归一化来处理。诸如 VLAD 和 Fisher Vectors (FV) 等高级特征也是分组特征,其中每一组可以被认为是关于集群计算的子向量。

类似地,我们不需要将深层神经网络特征视为非结构化向量。例如,对于网络的第一个卷基层 conv1 ,我们可以预期,滤波器(filter)及其水平翻转在自然图像上呈现类似的滤波器响应分布是合理的。如果 conv1 碰巧近似地学习到这对滤波器,或者通过将水平翻转设计到架构中,则这些滤波器的相应通道可以一起归一化。

神经网络中的更高层级更加抽象,它们的行为也不那么直观。然而,除了方向之外,还有许多因素可以导致分组,例如频率、形状、照明、纹理等,它们的系数可以是相互依赖的。

事实上,神经科学中一个广为接受的计算模型就是对细胞反应进行归一化,“具有各种感受野(receptive-field)中心(覆盖视野)和各种时空频率调谐”,这不仅可以发生在初级视觉皮层,而且可以发生在“整个视觉系统”中。受此启发,我们提出了一种新的深度神经网络的泛组归一化(generic group-wise normalization)方法。

组归一化公式:

只需要几行代码,GN 就可以在 iPyTorch 和 TensorFlow 实现。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-03-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 决策智能与机器学习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
CVPR 2018 | 腾讯AI Lab提出新型损失函数LMCL:可显著增强人脸识别模型的判别能力
选自arXiv 机器之心编译 参与:Panda 深度卷积神经网络 (CNN) 已经推动人脸识别实现了革命性的进展。人脸识别的核心任务包括人脸验证和人脸辨识。然而,在传统意义上的深度卷积神经网络的 softmax 代价函数的监督下,所学习的模型通常缺乏足够的判别性。为了解决这一问题,近期一系列损失函数被提出来,如 Center Loss、L-Softmax、A-Softmax。所有这些改进算法都基于一个核心思想: 增强类间差异并且减小类内差异。腾讯 AI Lab 的一篇 CVPR 2018 论文从一个新的角度
机器之心
2018/05/08
1.3K0
CVPR 2018 | 腾讯AI Lab提出新型损失函数LMCL:可显著增强人脸识别模型的判别能力
【CVPR 2018】腾讯AI lab提出深度人脸识别中的大间隔余弦损失
【论文导读】 深度卷积神经网络(DCNN)在人脸识别中已经取得了巨大的进展,通常的人脸识别的核心任务都包括人脸验证与人脸识别,涉及到特征判别。很多模型都是使用Softmax损失函数去监督模型的训练,
张俊怡
2018/04/24
1.4K0
【CVPR 2018】腾讯AI lab提出深度人脸识别中的大间隔余弦损失
腾讯AI Lab的CVPR 2018文章解读
今天和大家分享马上要召开的CVPR 2018会议,这算殿堂级的会议,今天主要主角是我和腾讯,?说起腾讯,其实和他还有许多缘分,但是现在还挺不是个滋味,永远记得17年10月份经历的一切,腾讯虽然在互联网
计算机视觉研究院
2018/07/25
4800
腾讯AI Lab的CVPR 2018文章解读
人脸识别损失函数疏理与分析
两张人脸图像,分别提取特征,通过计算特征向量间的距离(相似度)来判断它们是否来自同一个人。选择与问题背景相契合的度量方式很重要,人脸识别中一般有两种,欧氏距离和余弦距离(角度距离)。
李拜六不开鑫
2020/08/05
2.4K1
人脸识别损失函数疏理与分析
『深度概念』度量学习中损失函数的学习与深入理解
度量学习(Metric Learning),也称距离度量学习(Distance Metric Learning,DML) 属于机器学习的一种。其本质就是相似度的学习,也可以认为距离学习。因为在一定条件下,相似度和距离可以相互转换。比如在空间坐标的两条向量,既可以用余弦相似度的大小,也可以使用欧式距离的远近来衡量相似程度。
小宋是呢
2019/06/27
3.5K0
『深度概念』度量学习中损失函数的学习与深入理解
详解AI Lab 21篇CVPR 2018论文(附论文)
来源:量子位 本文共8300字,建议阅读10分钟。 本文从立题背景、作者思路及研究特点为你详解计算机视觉顶会论文。 一年一度的计算机视觉顶会CVPR即将召开,入选论文也陆续揭晓。 今天分享入选论文解析的是腾讯AI Lab。 在去年6篇入选之后,腾讯AI Lab今年状态更勇,总共有21篇论文入选CVPR。 以下是21篇入选论文详解: 1. 面向视频理解的端到端动作表示学习 End-to-End Learning of Motion Representation for V
数据派THU
2018/06/07
7880
CVPR 2019 | 腾讯AI Lab解读六大前沿方向及33篇入选论文
导语:本文将分组介绍计算机视觉顶级会议 CVPR 中腾讯 AI Lab 的重点研究方向和入选论文。
腾讯技术工程官方号
2019/06/24
1.4K0
CVPR 2019 | 腾讯AI Lab解读六大前沿方向及33篇入选论文
何恺明、吴育昕最新成果:用组归一化替代批归一化
编译 | 阿司匹林 AI科技大本营按:近日,FAIR 团队的吴育昕和何恺明提出了组归一化(Group Normalization,简称 GN)的方法。其中,GN 将信号通道分成一个个组别,并在每个组别内计算归一化的均值和方差,以进行归一化处理。此外,GN 的计算与批量大小无关,而且在批次大小大幅变化时,精度依然稳定。实验结果证明,GN 在多个任务中的表现均优于基于 BN 的同类算法,这表明 GN 能够在一系列任务中有效地替代 BN。 以下内容来自 Group Normalization 论文,AI科技大
AI科技大本营
2018/04/26
7750
何恺明、吴育昕最新成果:用组归一化替代批归一化
深度学习之视频人脸识别系列四:人脸表征-续
【磐创AI导读】本文是深度学习之视频人脸识别系列的第四篇文章,接着第三篇文章,继续介绍人脸表征相关算法和论文综述。在本系列第一篇文章里我们介绍了人脸识别领域的一些基本概念,分析了深度学习在人脸识别的基本流程,并总结了近年来科研领域的研究进展,最后分析了静态数据与视频动态数据在人脸识别技术上的差异;在第二篇文章中介绍了人脸检测与对齐的相关算法。欢迎大家关注我们的公众号:磐创AI。
磐创AI
2018/09/20
2.1K0
深度学习之视频人脸识别系列四:人脸表征-续
CVPR 2018 | 腾讯AI Lab入选21篇论文详解
腾讯AI Lab共有21篇论文入选,位居国内企业前列,我们将在下文进行详解,欢迎交流与讨论。
腾讯技术工程官方号
2018/03/26
2.6K2
CVPR 19系列2 | 强判别能力的深度人脸识别(文末附有源码)
CVPR2019已经告一段落,但是好的文献依然值得慢慢去品味,值得深入阅读去体会作者的意图,从中学习其精髓,去发现更多的创新点。今天为大家推荐一篇关于人脸识别的文献,主要提出了一个更具有判别能力的人脸识别模型,有兴趣的您可以和我们一起来学习。
计算机视觉研究院
2019/07/10
1K0
CVPR 19系列2 | 强判别能力的深度人脸识别(文末附有源码)
【新智元干货】计算机视觉必读:目标跟踪、网络压缩、图像分类、人脸识别等
【新智元导读】深度学习目前已成为发展最快、最令人兴奋的机器学习领域之一。本文以计算机视觉的重要概念为线索,介绍深度学习在计算机视觉任务中的应用,包括网络压缩、细粒度图像分类、看图说话、视觉问答、图像理解、纹理生成和风格迁移、人脸识别、图像检索、目标跟踪等。 网络压缩(network compression) 尽管深度神经网络取得了优异的性能,但巨大的计算和存储开销成为其部署在实际应用中的挑战。有研究表明,神经网络中的参数存在大量的冗余。因此,有许多工作致力于在保证准确率的同时降低网路复杂度。 低秩近似
新智元
2018/03/28
1.2K0
【新智元干货】计算机视觉必读:目标跟踪、网络压缩、图像分类、人脸识别等
大会 | AAAI 2018论文:视频语义理解的类脑智能
AI 科技评论按:近日,美图云视觉技术部门与中科院自动化所共同合作研发,提出一种基于类脑智能的无监督的视频特征学习和行为识别的方法 NOASSOM (Hierarchical Nonlinear Orthogonal Adaptive-Subspace Self-Organizing Map based Feature Extraction for Human Action Recognition),该方法不依赖于标签信息,可以自适应地、无监督地学到视频的特征表示,相关成果已发表在 AAAI 2018 上,
AI科技评论
2018/03/29
1.4K0
大会 | AAAI 2018论文:视频语义理解的类脑智能
【AI白身境】一文览尽计算机视觉研究方向
图像分类是计算机视觉中最基础的一个任务,也是几乎所有的基准模型进行比较的任务,从最开始比较简单的10分类的灰度图像手写数字识别mnist,到后来更大一点的10分类的cifar10和100分类的cifar100,到后来的imagenet,图像分类任务伴随着数据库的增长,一步一步提升到了今天的水平。
用户1508658
2019/07/26
8350
【AI白身境】一文览尽计算机视觉研究方向
腾讯广告:广告场景下有哪些视觉算法应用?
今年 7 月,2019 腾讯广告算法大赛「终极之战」在深圳腾讯滨海大厦顺利举行。本次总决赛现场,腾讯广告高级应用研究员石瑞超为大家带来了题为《广告场景下的 AI 视觉算法应用》的演讲。视觉算法应用于广告创意的三个阶段包括广告创建、广告审核及广告播放。研究员石瑞超为我们展示了 AI 视觉算法在解决广告落地中痛难点的优势与应用方法。以下是他的分享内容,AI 开发者做了不改变原意的整理与编辑。
AI研习社
2019/08/23
1.5K0
腾讯广告:广告场景下有哪些视觉算法应用?
全球计算机视觉顶会CVPR 2019论文出炉:腾讯优图25篇论文入选
全球计算机视觉顶级会议 IEEE CVPR 2019(Computer Vision and Pattern Recognition,即IEEE国际计算机视觉与模式识别会议) 即将于6月在美国长滩召开。本届大会总共录取来自全球论文1299篇。中国团队表现不俗,此次,腾讯公司有超过58篇论文被本届CVPR大会接收,其中腾讯优图实验室25篇、腾讯AI Lab33篇,相比过去两年成绩大幅提升。 作为计算机视觉领域级别最高的研究会议,CVPR2019录取论文代表了计算机视觉领域在2019年最新和最高的
腾讯技术工程官方号
2019/03/08
1.1K0
全球计算机视觉顶会CVPR 2019论文出炉:腾讯优图25篇论文入选
总结 | 计算机视觉领域最常见几中损失函数
损失函数在模型的性能中起着关键作用。选择正确的损失函数可以帮助你的模型学习如何将注意力集中在数据中的正确特征集合上,从而获得最优和更快的收敛。
OpenCV学堂
2020/03/18
2.5K0
动态 | 何恺明团队最新力作:群组归一化(Group Normalization)
AI科技评论按:近日,FAIR 研究工程师吴育昕和研究科学家何恺明联名著作的一篇论文 Group Normalization 提到了一种新的训练神经网络的方法。该方法称为群组归一化(Group Normalization),试图以群组方式实现快速训练神经网络,这种方法对于硬件的需求大大降低,并在实验中超过了传统的批量归一化方法。 批量归一化和群组归一化 批量归一化(Batch Normalization,以下简称 BN)是深度学习发展中的一项里程碑式技术,可让各种网络并行训练。但是,批量维度进行归一化会带来
AI科技评论
2018/03/29
1K0
动态 | 何恺明团队最新力作:群组归一化(Group Normalization)
深入理解风格迁移三部曲(一)--UNIT
近期我研究的方向转向了GAN的应用, 其中图像的风格迁移是GAN中一个非常有意思的应用,传统的方法基于拉普拉斯金字塔对成对的图像进行纹理上的风格迁移.随着2014年GAN的爆火,研究者发现GAN通过判别器D学习两个图像域的关系,实现了unpaired image-to-image(非成对图像数据集的风格迁移)的功能,其中有两个广为人知的应用分别是pix2pix和cycleGAN,今天我们另辟蹊径,从NVIDIA-Lab提出的UNIT框架来探索image-to-image的实现原理.
OpenCV学堂
2019/12/27
2K0
深入理解风格迁移三部曲(一)--UNIT
机器视觉表面缺陷检测综述
中国是一个制造大国,每天都要生产大量的工业产品。用户和生产企业对产品质量的要求越来越高,除要求满足使用性能外,还要有良好的外观,即良好的表面质量。但是,在制造产品的过程中,表面缺陷的产生往往是不可避免的。不同产品的表面缺陷有着不同的定义和类型,一般而言表面缺陷是产品表面局部物理或化学性质不均匀的区域,如金属表面的划痕、斑点、孔洞,纸张表面的色差、压痕,玻璃等非金属表面的夹杂、破损、污点,等等。表面缺陷不仅影响产品的美观和舒适度,而且一般也会对其使用性能带来不良影响,所以生产企业对产品的表面缺陷检测非常重视,以便及时发现,从而有效控制产品质量,还可以根据检测结果分析生产工艺中存在的某些问题,从而杜绝或减少缺陷品的产生,同时防止潜在的贸易纠份,维护企业荣誉。
智能算法
2019/07/19
11.2K0
推荐阅读
相关推荐
CVPR 2018 | 腾讯AI Lab提出新型损失函数LMCL:可显著增强人脸识别模型的判别能力
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档