Mason和 Charniak(2014)则根据待描述图像中视觉内容所对应的标签词频,将描述生成问题转化为文本摘要提取问题,使用更成熟的自然语言处理技术实现生成质量更高的标题或描述的目标。...Mun 等人(2017) 认为在视觉注意力定位过程中,可以引入与其相似的相关描述作为辅助,提高模型对于视觉区域关注的准确性,为此,提出一种基于文本引导注意力机制的图像描述模型。...首先根据图像内容使用相似度与标题共识分值,从训练集中检索出相关的描述句子,然后使用文本引导注意力单元计算词汇与视觉区域的相关度,并据此提取图像的上下文特征。...以元学习(Meta-learning)思想为基础,将图像和文本结合在一起作为学习目标,通过动态地学习文本中的少量先验知识,进而影响视觉模型中的参数更新,并实现视觉模型与语言模型的参数共享。...,然后将其映射为各语义对象的有向场景图,并根据场景图的匹配程度,衡量生成句子的质量;在具体计算时,参考句子集合与生成句子的场景图转换为“ n-元组”的集合,然后借鉴 METEOR 方法中的匹配方法统计匹配集合