北京大学彭宇新教授团队建立了第一个包含 4 种媒体类型(图像、文本、视频和音频)的细粒度跨媒体检索公开数据集和评测基准 PKU FG-XMedia,并且提出了一种能够同时学习 4 种媒体统一表征的深度网络模型 FGCrossNet。该论文已经被 CCF A 类国际会议 ACM MM 2019 大会接收。
引言
跨媒体检索(Cross-media Retrieval)是指用户给定任意一种媒体类型数据作为查询样例,系统检索得到与查询样例相关的各种媒体数据。如图 1 所示,当用户给定一张灰背鸥(Slaty-backed Gull)的图像作为查询样例,检索结果包含了图像、文本、视频和音频 4 种媒体数据。现有跨媒体检索研究一般聚焦在粗粒度跨媒体检索(Coarse-grained Cross-media Retrieval),只是将灰背鸥的图像作为鸟的图像进行分析检索,因此检索结果中会包含各种相似鸟类的媒体数据(如灰翅鸥、银鸥、加州海鸥等),而不是灰背鸥的图像、文本、视频和音频数据,如图 1(a) 所示。为了克服上述问题,本文提出了细粒度跨媒体检索(Fine-grained Cross-media Retrieval),即用户给定任意一种媒体类型数据作为查询样例,系统检索得到与查询样例细粒度类别相同的各种媒体数据,如图 1(b) 所示,检索得到灰背鸥的图像、文本、视频和音频数据。
作为一个新兴的研究方向,细粒度跨媒体检索面临三大挑战:
针对上述挑战,本文主要做了以下工作:
图 1:粗粒度跨媒体检索与细粒度跨媒体检索的区别
图 2:PKU FG-XMedia 数据集中的样例,如图展示了 7 种细粒度类别的图像、文本、视频和音频数据,其中音频数据用声谱图可视化。
PKU FG-XMedia 细粒度跨媒体数据集
PKU FG-XMedia 数据集包含超过 50,000 个样例,其中 11,788 个图像样例、8,000 个文本样例、18,350 个视频样例和 12,000 个音频样例。具有媒体类型多、类别细粒度和数据来源多的特点:
FGCrossNet 网络模型
本文提出的 FGCrossNet 能够同时学习 4 种媒体的统一表征,其网络框架如图 3 所示。现有跨媒体检索方法一般通过不同的分支网络来建模图像、文本、视频和音频 4 种媒体数据,而 FGCrossNet 则在一个统一的网络中同时建模这 4 种媒体数据,通过优化损失函数一次性学习 4 种媒体的统一表征。
图 3:FGCrossNet 网络框架
本文在损失函数的设计上考虑了 3 种不同的约束:
分类约束(Classification Constraint)
本文采用交叉熵损失函数来进行分类约束,使得网络模型具有能够区分相似细粒度子类别的能力,其定义如下:
其中
是交叉损失函数,I,T,V,A 分别表示图像、文本、视频和音频。以图像为例,
表示训练集中图像的数目,
表示第 k 个图像样本的类别标签,
表示第 k 个图像样本的特征向量,在本文实验中为 FGCrossNet 网络模型最后一层全连接层的输出。需要注意的是,本文采用视频帧进行网络模型的训练,因此
表示的是训练集中视频帧的数目。
中心约束(Center Constraint)
为了使得相同细粒度子类别的样本(包括图像、文本、视频和音频)在统一空间中具有相近的特征,本文通过中心约束来减少类内特征的距离以缩短模态之间的差异,其定义如下:
其中,
表示训练集中第 k 个样本的特征,在这里不区分媒体类型,因为目的是使得相同细粒度子类别的所有媒体数据的特征相近。
表示
细粒度子类别的质心的特征,N 表示训练集中所有训练样本的数目。
排序约束(Ranking Constraint)
为了使得不同细粒度子类别的样本在统一空间中的距离尽可能大,本文定义了排序约束:
其中,d() 表示 L2 距离,
和
表示边界阈值用于平衡公式(3)中的两项。需要注意的是,在一次训练过程中,网络模型同时接收 4 种媒体的训练样本,且其中两个样本属于相同细粒度子类别,另外两个样本属于其他两个细粒度子类别。
通过上述三种约束,FGCrossNet 网络模型能够学习到具有辨识性、紧凑性和松散性的统一表征,以实现细粒度的跨媒体检索。
实验
本文在 PKU FG-XMedia 数据集上,通过两种细粒度跨媒体检索任务验证了 FGCrossNet 网络的有效性:
本文在 ResNet50 网络的基础上实现了 FGCrossNet 网络模型,首先在双模态细粒度跨媒体检索任务上验证了 FGCrossNet 的有效性,结果如表 1 所示。实验结果表明 FGCrossNet 取得了当前的最好性能,在检索准确率(MAP)上比当前 state-of-the-art 方法提升了 16.2%。
表 1:本文方法和现有方法在双模态细粒度跨媒体检索任务上的检索准确率(MAP)。
同样,本文也在多模态细粒度跨媒体检索任务上验证了 FGCrossNet 的有效性,结果如表 2 所示。在检索准确率(MAP)上,FGCrossNet 比当前 state-of-the-art 方法提升了 18%。值得注意的是,本文提出的 FGCrossNet 可以一次性学习 4 种媒体的统一表征。而在对比方法中,MHTN 可以同时学习 4 种媒体的统一表征,但是其网络结构相对复杂,需要对每一种媒体都设计不同的分支网络;其他对比方法一次则只能学习两种媒体的统一表征,因此这些方法的训练和检索复杂度都比较高。
表 2:本文方法和现有方法在多模态细粒度跨媒体检索任务上的检索准确率(MAP)。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有