此 外, Kuznetsova 等 人(2014)提出了另一种基于随机树合成的图像描述生成方法,首先检测出待描述图像中的语义片段,然后从检索库中寻找携带类似语义的图像及其描述,并将其视觉片段和对应描述单独抽取出来...Wu 等人(2016)为了使用更高层次的视觉语义信息,也提出一种基于视觉属性的图像描述框架,但并未使用 MIL 方法来生成视觉属性,而是直接从参考语句中按照出现次数对属性进行选择;同时通过一种多尺度组合分组的技术...Yin 等人(2019)同样为解决上下文引用的问题,引入了局部信息、邻居信息与全局信息,从多个尺度上辅助每条语句的生成。...Mathews 等人(2016)从情感表达的个性化特点出发,通过设计一种开关式 RNN 单元,为图像生成具有“积极(positive)”或“消极(negative)”情感的描述句子。...以上方法都是针对机器翻译任务设计的,因此其只从自然语言的角度衡量生成句子的质量,这对于视觉描述任务来说,则割裂了视觉信息与语言之间的联系。