本节围绕该基本框架,从视觉特征提取、视觉语义选择和模型设计与优化等方面,介绍当前流行的方法和模型架。
?...此 外, Kuznetsova 等 人(2014)提出了另一种基于随机树合成的图像描述生成方法,首先检测出待描述图像中的语义片段,然后从检索库中寻找携带类似语义的图像及其描述,并将其视觉片段和对应描述单独抽取出来...Jiang 等人(2018) 从视觉特征互补的角度出发,使用多个CNN 模型提取图像的视觉特征,然后将其送入多个RNN 网络,结合多注意力机制,在不同的时间步上关注更为丰富的视觉信息。...首先根据图像内容使用相似度与标题共识分值,从训练集中检索出相关的描述句子,然后使用文本引导注意力单元计算词汇与视觉区域的相关度,并据此提取图像的上下文特征。...Mathews 等人(2016)从情感表达的个性化特点出发,通过设计一种开关式 RNN 单元,为图像生成具有“积极(positive)”或“消极(negative)”情感的描述句子。