前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ECCV 2018论文 | 如何让人工智能充分理解图像?JD AI探秘物体间的联系对图像描述的作用

ECCV 2018论文 | 如何让人工智能充分理解图像?JD AI探秘物体间的联系对图像描述的作用

作者头像
京东技术
发布2018-08-22 14:43:02
1K0
发布2018-08-22 14:43:02
举报
文章被收录于专栏:京东技术

来这里找志同道合的小伙伴!

导语

人类想生动准确地描绘图像内容,不仅需要敏感捕捉图像中物体,还要洞悉各物体间的联系。目前人工智能已经能够精准识别图像中物体,但探索物体间联系从而对图像进行完整阐述一直是业界的难点。日前京东AI研究院计算机视觉与多媒体实验室在计算机视觉领域顶级会议ECCV 2018上入选的一篇文章,介绍了京东AI研究院在图像描述课题上取得的算法创新与突破,引起业界广泛关注。

京东AI研究院此次研究的核心内容是让计算机像人一样看图说话,使计算机不仅能够深层次理解图像内容,还可以精准、生动地进行图像描述。这一课题涵盖了计算机视觉(图像内容理解)和自然语言处理(描述语句生成)两大领域,是人工智能技术多模态融合的一个典型案例。

这一课题中,京东AI研究院计算机视觉与多媒体实验室开创性地设计了一套基于图卷积网络(Graph Convolutional Networks)和长短时记忆网络(Long Short-Term Memory)的编码器-解码器系统,通过这套系统,计算机能够将图像中物体的语义关系和空间关系融入到图像描述的生成过程中。该系统(简称为GCN-LSTM)在图像描述基准数据集COCO上验证了物体间联系对图像描述的促进作用,并获得了目前业界最好的效果。

>>>> 模型概述

具体而言,编码器-解码器图像描述系统可分为三部分:(1)物体检测模块;(2)基于图卷积网络的图像编码器模块;(3)基于长短时记忆网络的解码器模块。对于输入的图像,物体检测模块首先检测图像中包含的物体,并获得每个物体对应的区域级别的特征。然后,针对检测出来的多个物体,我们会构建出物体间的语义关系图和空间关系图(具体构建方法见后)。接着在基于图卷积网络的图像编码器模块中,图卷积网络会分别作用于物体间的语义关系图和空间关系图上,将两两物体间的语义关系和空间关系融入到对应物体的区域级别的特征,实现对物体区域级别特征的进一步编码。在获得了来自于语义关系图或者空间关系图上蕴含有物体间关系的区域级别特征后,我们将这一组编码后的物体区域级别特征输入基于长短时记忆网络的解码器模块,主要利用两层的长短时记忆网络来将输入的图像区域级别特征解码为对应的文本描述。

>>>> 物体间语义关系图的构建

对于物体间语义关系图,我们主要利用了如下的语义关系分类模型来实现两两物体间语义关系的判断。其输入为两个物体和它们共同覆盖区域特征的联结,以此为基础判断这两个物体间是否具有语义关系以及具有哪种语义关系。最后再对所有具有语义关系的物体间连接一条有向边,完成最终物体间语义关系图的构建。

>>>> 物体间空间关系图的构建

对于物体间空间关系图,我们直接依照两两物体间的空间相对位置关系,划分出了如下十一种不同的空间关系,这其中不仅具有包含与被包含,互相重叠的空间关系,还对八种不同的空间相对角度关系进行了细致的划分。最终的空间关系图则依据这十一种空间关系进行构建。

>>>> 测试结果

实验中我们首先在COCO数据集的标准测试集上进行定量的测试。相比于之前世界领先的Up-Down [2]模型,在图像描述的过程中引入物体间的语义和空间关系可将CIDEr-D的指标从120.1%提升至128.7%。另外,我们在下图中也展示了不同方法生成图像描述的结果示例。其中GT代表人们真实描述的语句,LSTM是基本的仅仅基于长短时记忆网络的方法。可以发现LSTM、Up-Down以及我们的GCN-LSTM这三种方法都能生成语法连贯和图像也大体一致的描述语句。但是我们的GCN-LSTM因为额外融入了物体间语义和空间关系,所以生成的语句更为丰富和图像的内容也更为契合。例如第一幅图中因为在我们的语义关系图中准确捕捉到了Kids和Dessert这两个物体间eating的语义关系,所以利用我们所提出的GCN-LSTM可以在生成的描述语句中强调这一语义关系,最终实现更为准确的图像描述。

该项图像描述技术展示了京东AI研究院视觉与多媒体实验室对图像内容更高层语义的理解能力。它不仅可以应用于剖析图像中所包含的丰富的语义信息,赋予图像更有意义的标签,还可以从用户图像出发,生成同图像表述内容一致的散文或诗。

在未来,京东AI研究院还将会使这项技术同京东金融、物流、电商全价值链场景结合,进行商品宣传图自动生成标题、广告语等业务场景方面的探索。据悉,ECCV(全称European Conference on Computer Vision)即将于2018年9月在德国慕尼黑盛大召开,它与CVPR、ICCV被并称为计算机视觉领域的三大国际顶级会议。京东AI研究院计算机视觉与多媒体实验室在本次ECCV大会中表现亮眼,包含在图像描述领域的突破,共有三篇论文被收录。相信未来,京东AI研究院计算机视觉与多媒体实验室将继续探索,在计算机挖掘并理解图像视频等多媒体素材中的视觉表达和语义信息领域取得更多的进展和突破。

>>>> 参考文献

[1] Ting Yao, Yingwei Pan, Yehao Li and Tao Mei. "Exploring Visual Relationship for Image Captioning." In ECCV, 2018.

[2] Anderson Peter, Xiaodong He, Chris Buehler, Damien Teney, Mark Johnson, Stephen Gould, and Lei Zhang. "Bottom-up and top-down attention for image captioning and visual question answering." In CVPR, 2018.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-08-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 京东技术 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • >>>> 模型概述
  • >>>> 物体间语义关系图的构建
  • >>>> 物体间空间关系图的构建
  • >>>> 测试结果
  • >>>> 参考文献
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档