把照片唱给你听：腾讯 AI Lab 国际领先技术邀你「趣」体验

原创

腾讯AI实验室

发布于 2018-01-15 18:33:18

3.1K7

感谢阅读腾讯AI Lab微信号第10篇文章。本文介绍了我们在图像描述生成与TTS等技术跨界的前沿研究进展，并邀请大家测试一个趣味Demo。我们还会分享在多媒体内容AI应用上一点思考。

2017年8月，在图像描述生成技术这一计算机视觉与NLP交叉研究领域，腾讯AI Lab凭借自主研发的强化学习算法在微软MS COCO相关的Captions类别挑战赛上排名第一，超过了微软、谷歌、IBM等参赛公司，体现了在这一前沿领域的技术优势。

微软MS COCO也称常见物体图像识别数据集，对图像的标注信息包括类别、位置和图像语义文本描述等，该数据集的开源使近两三年来图像分割语义理解取得了巨大进展，几乎成为图像语义理解算法性能评价的「标准」数据集。链接：http://cocodataset.org/#captions-leaderboard

团队特别制作了「把照片唱给你听」体验Demo，将图像描述生成技术与文本转语音（Text to Speech，简称TTS）两大AI技术结合，希望以更轻松的方式让大众了解机器「视觉能力」提升的一小步。上传1到4张图片后，AI会生成相关的文字描述并匹配韵脚歌词，再通过合成语音配合旋律Rap出来。

上传吃喝玩乐国庆美图时，AI唱出来是这样的

上传不太正常的图片时，AI可能会被被网友的脑洞玩坏 -_-||

现在，我们将邀请100位「首席体验官」优先测试Demo。如果你有相关技术背景，或图片视频制作经验，将有机会优先体验。请留下评论，回复您的姓名+邮箱+所属公司+职业，如：王小明+wxm@qq.com+腾讯+设计，我们将稍后通知测试方法。

Demo 第一步：让机器看图写词

详解图像描述生成技术

Demo中机器「写」出的歌词，其实是给图片配上一句话说明，也被称为图像描述生成。这是一个跨模态（Cross-modality）研究方向，机器不仅要理解图像内容，还要学习和组织语句，给出通顺并符合人类语义习惯的表述。

图像描述生成是一个让机器学会深度理解图片内容的技术。以前，机器只能识别图片里出现的是一只狗，而不是猫；现在，机器不仅识别出狗，说出它的颜色甚至种类，甚至能理解它所处的环境和与其他物体的关系，这体现了机器「视觉能力」的进步。

从简单的图片分类到生成复杂的文字描述，机器用了30多年

在一个三岁儿童的眼里，这可能是个很简单的任务。但机器走到这一步，花费了几十年的时间。尽管如此，机器在理解更复杂的图像内容时，恐怕依旧赶不上三岁小孩。但我们相信，机器前进的每一小步，都体现出人类智慧的一大步。

Demo中使用的是我们全新设计的图像描述模型，采用端到端编码器-解码器模型。这个过程可以用下面的图片表示出来：给定一张图片，用卷积神经网络（CNN）为图片编码，得到全局或局部的图片表示；用长短时记忆模型（LSTM）解码上述的图片表示，转换为一句话的文字说明。解码过程中创新采用了注意力模型（Multistage Attention Model）,捕捉到了每个单词生成时，不同局部信息的贡献程度，通过引入不同级（stage）注意力模型，更加充分的挖掘在产生每一个单词的过程中的图像的全局和局部信息的贡献；而整个深度网络模型得到了强化学习的充分训练，从而产生更加流畅的自然语句描述图像内容。

Demo采用的全新图像描述模型

在研究上，这个技术能同时推进对图像和自然语言间单学科到跨学科的理解、分析与运用。而应用上，它的前景非常值得期待。互联网上几乎大部分数据都以图像+文本的多模态方式存在，仅以腾讯产品为例，从微信朋友圈、QQ空间图片到天天快报的新闻，都是图像与文本强相关的素材，这之间的深度关系挖掘，能促进更强的内容理解，进而提供更好的产品体验。比如能为相册照片自动生成丰富的描述，可进一步提升图片的分类、搜索和推荐质量；用于图像文本对话系统中，可为图片生成更相关的评论，或直接做「斗图」这样的趣味图像对话；与语音技术结合时，能帮助幼儿或视觉障碍人群更好地理解图像内容。