来源:专知本文约5000字,建议阅读9分钟最新视频视频标题生成与描述研究综述论文。
视频标题生成与描述是使用自然语言对视频进行总结与重新表达....基于模板/规则的视频描述
不同于静态图像, 视频中的视觉内容是动态可变的, 在静态的二维数据基础上, 增加了时间维度, 蕴含的视觉信息更为丰富, 但数据结构也更为复杂....在具体方法方面, 早期研究者主要是结合基于模板或固定规则的框架, 设计手工特征从视频中获取视觉语义表达, 或使用识别检测技术检测出人物、动作、场景等, 将其填入预设的语句模板中, 或按照固定规则组合成描述语句...其通用框架与图像描述类似, 是将视频作为“源语言”, 将待生成句子作为“目标语言”....为此, 需要结合人类的情感心理及视觉情感发现技术, 在表情、动作及上下文语义环境上建立其与情感的映射关系, 并通过视觉属性/概念、注意力机制等技术将情感及个性化信息有机嵌入到生成的句子中.