9月8日,ECCV 2018(European Conference on Computer Vision, 计算机视觉欧洲大会)在德国慕尼黑召开。ECCV与CVPR、ICCV一起被称为计算机视觉领域的三大顶级学术会议,本届 ECCV的规模刷新纪录,注册参会人数近 3200 人,大会投稿论文 2439 篇,其中接收论文 776 篇。今年,优必选悉尼AI研究院一共有8篇论文入选,优必选再次作为中国企业的代表在国际顶级学术会议上展现中国AI力量。
以下是优必选悉尼AI研究院此次入选ECCV 2018的8篇论文的解读:
论文1:Correcting the Triplet Selection Bias for Triplet Loss.
三元组损失函数在度量学习中很受欢迎,并在许多计算机视觉任务中取得了巨大成功, 例如细粒度图像分类, 图像检索和人脸识别。考虑到三元组的数量随着训练数据集的大小而立方增长,因此三元组采样对于高效训练三元组损失函数是必不可少的。然而,三元组损失函数的训练过程通常对三元组的采样非常敏感。 例如,在实际应用中, 使用随机选择的三元组, 算法很难收敛; 使用最难的三元组会导致算法收敛到较差的局部极小值点。对此, 我们认为三元组的采样偏差限制了三元组损失函数的性能。在本文中,我们提出了一种新的三元组损失函数的变体,它试图通过自适应地校正所选三元组的分布偏移来减少三元组采样的偏差。我们将这种新的三元组损失函数称为自适应的三元组损失。我们在MNIST和Fashion-MNIST数据集上进行了大量的图像分类实验,在CARS196,CUB200-2011和Stanford Online Products数据集上进行了大量的图像检索实验。实验结果验证了自适应的三元组损失函数的有效性。
论文2:FishEyeRecNet: A Multi-Context Collaborative Deep Network for Fisheye Image Rectification
由鱼眼相机拍摄的图片违背了针孔相机的假设而导致了扭曲。对于许多计算机视觉任务来说,鱼眼图片的纠正是一个十分重要的预处理步骤。在这篇论文中,我们提出了一个端对端的多语境协作深度网络,用以去除单张鱼眼图片中的扭曲。传统方法往往依赖于从输入图片中提取人工手动设计的特征。与此截然不同,我们提出的方法自动学习了高层语义信息和低层表象信息,用以估计扭曲参数。为了辅助模型训练,我们构造了一个包括了不同场景、不同相机参数的图像数据库。我们在该数据库和真实鱼眼图像上进行了实验,结果显示我们的模型效果显著优于目前的最优方法。
论文3:Learning with biased complementary labels
在本文中,我们研究一种新的分类问题。在此问题中,我们能够接触到一些相对于真实标签更容易获得的替代标签:补偿标签。具体而言,补偿标签指定每个观测样本不属于某个的类别。我们用Y和Y ̅分别表示真实类别标签和补偿标签的变量,c表示总得类别数目。首先,我们利用转移概率P(Y ̅=i│Y=j),i≠j∈来对补偿标签的产生建模。之前的方法隐含地假设概率P(Y ̅=i│Y=j),i≠j都是一样的。这在实际中是不可能的,这是因为标注的人总是根据个人的经验而有偏差的。例如,如果一个人相比于草原犬鼠更加熟悉猴子,那么当她给狐獴标注补偿标签时,她更可能偏好于用“猴子”作为补偿标签。我们因此推断这些转移概率都是不同的。因此,我们针对从有偏的补偿标签中学习这一问题,提出了一个新的框架。该框架具有以下三个主要贡献:(1)提供了一种无偏地估计转移概率的方法;(2)提供了一个一般的修改传统损失函数的方法,并将传统的深度神经网络分类器拓展到有偏补偿标签的学习中;(3)理论证明从补偿标签中学习到的分类器能够收敛到从真实标签中学习的最优分类器。本文用全面的实验验证了我们方法相较于当前最好方法的优越性。
论文4:Attention-GAN for Object Transfiguration in Wild Images
本篇论文研究野外场景中的图像目标变换问题。在经典的对抗生成网络模型(GANs)中,生成网络在实现目标变换的时候通常承担了两个任务:检测目标区域,然后将目标从一个域变换到另一个域。不同与经典的生成模型,本文将生成网络分解成两个独立的子网络,各自完成对应的子功能。其中,注意力网络的任务是预测图片中的空间注意力热力图。注意力热力图被约束为稀疏图,使得注意力只集中在我们感兴趣的目标上。另外注意力热力图在目标变换的前后被要求是一致的。不仅如此,在可以获取到图像的语义分割标记情况下,我们还可以利用目标的分割图来指导注意力网络的学习。实验表明,在目标转换问题中引入注意力模型是非常有必要的,本文提出的算法可以更准确地预测注意力热力图并提高生成图像的质量。
论文5:Deep Domain Generalization via Conditional Invariant Adversarial Networks
在域自适应学习中,给定多个相关的域,我们希望从源域中学习一个能够很好泛化到目标域的分类模型。由于不同域之间的数据分布差异很大,域自适应学习中的难点在于如何学习域不变的特征。假设X和Y分别表示特征和标签,现有方法通常假设分布P(Y|X) 在不同的域之间是不变的,这些方法只需要学习一个不变特征T(X),这个特征变换能够减少域之间边缘分布P(T(X)) 之间的差异。然而现实问题中,假设P(Y|X) 在不同域之间不变通常是没有保证的。另外现有方法往往通过线性变换或者浅网络学习特征变换T(X),学习能力受到了很大的限制。为了解决上面两个问题,我们提出了一种端到端的条件概率不变的域自适应神经网络,通过神经网络进行域不变特征的学习。域不变特性通过一个条件不变的对抗网络实现,该网络在目标域样本类别分布不是严重不均衡的情况下,能够保证源域与目标域联合概率分布P(T(X,) Y) 之间的等价关系。我们从多个实验中证明了我们方法的有效性。
论文6:Context Refinement for Object Detection
当下的二阶段目标检测器主要由一个候选框生成阶段和一个候选框改良阶段组成。对于那些定位失准的候选框,这样的检测器很可能产生不可靠的检测结果。我们研究了这个问题,并尝试使用由附近的候选框所带来的丰富上下文信息来解决它。具体来说,对于每一个候选框,我们首先找到它附近具有有益上下文信息的其他候选框,然后基于从其他候选框提取和整合的上下文信息来对该候选框进行考虑上下文关系的改良。在实际应用中,我们的方法能有效提高最后检测结果的质量,同时也能提高候选框本身的质量。实验数据证明了我们提出的方法能针对不同基线检测器和不同基准测试集带来稳定的提升。详细地说,我们的方法在PASCAL VOC和MS COCO两个基准数据集上为基线检测器分别带来了3%和6%的提升。
论文7:Selective Zero-Shot Classi_cation with Augmented Attributes
在本文中,我们引入了一个selective zero-shot分类问题:分类器如何避免模棱两可的预测?现有的基于属性的zero-shot分类方法在选择性分类过程中表现不佳。我们认为不完整的人类定义属性词汇导致表现不佳。本文提出了一种基于人类定义和自动发现的残差属性的selective zero-shot分类器。该分类器首先共同学习定义和残差属性。然后,在定义的属性的子空间内进行预测。最后,通过定义和残差属性来测量预测置信度。在几个基准测试中进行的实验表明,我们的分类器在风险覆盖率权衡指标下可以产生优于其他方法的性能。
论文8:Stroke Controllable Fast Style Transfer with Adaptive Receptive Fields?
最近提出了快速风格转移方法以实时地将照片转换为艺术风格。该任务涉及风格转化后的结果中控制笔划尺寸,仍是一个公开的挑战。在本文中,我们提出了一种可以实现连续和空间行程尺寸控制的笔画可控式传送网络。通过分析影响笔画尺寸的因素,我们建议明确考虑感受野和风格图像尺度。我们提出了一个StrokePyramid模块,为网络赋予自适应感受野,以及两种训练策略,分别在训练模型上实现更快的收敛和增加新的笔画尺寸。通过组合所提出的运行时控制策略,我们的网络可以实现笔划尺寸的连续变化,并在同一输出图像内的不同空间区域中产生不同的笔划尺寸。
领取专属 10元无门槛券
私享最新 技术干货