Farhadi 等人(2010)首先提出了“视觉—语言”共享语义空间的方法,通过检测图像中的视觉对象,并将其映射到预先设计的语义空间元组上,建立该图像与元组所关联的描述句子之间的对应关系;通过这种关系,...此 外, Kuznetsova 等 人(2014)提出了另一种基于随机树合成的图像描述生成方法,首先检测出待描述图像中的语义片段,然后从检索库中寻找携带类似语义的图像及其描述,并将其视觉片段和对应描述单独抽取出来...但不可否认的是,使用深度特征的图像描述模型,其性能已远超过使用手工特征的模型,生成的句子在准确性、连贯性和语义丰富程度等方面都得到巨大改善,缩小了视觉与自然语言之间的语义鸿沟。
?...Yao等人(2018)认为各视觉对象之间具有一定的语义关系,尤其在生成句子时,需要将这种视觉语义关系映射到句子结构中。...其中 BLEU 指标主要用于衡量生成句子的准确性与连贯性,通过统计生成句子中与参考句子中“ n-元组”的匹配程度对生成句子进行打分(通常使用 B-n表示其在不同“ n-元组” 下的分值),其中 n 一般取