提出了Semantic Grouping Network(SGN)网络:
以前:丢弃或者合并重复视频信息
SGN:检索最有鉴别能力的单词短语,然后将这些词与视频帧关联 。这样可以让语义差不多的帧聚类在一起。
贡献:
语义群(组)条件:
贡献:
结构:Visual Encoder、Phrase Encoder、Semantic Grouping、Decoder、Contrastive Attention (CA) loss
获取视频并为每个视频帧生成帧表示。
接受部分已解码的标题,并生成由标题中的一组单词组成的短语(组合单词生成短语)
过滤出相似的短语,并通过围绕前面处理后的短语与视频帧之间对应,构建语义组(处理前面Phrase Encoder生成的短语)
解码器利用语义组来预测部分解码的标题的下一个单词