Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >深度学习了40万个表情,一大波AI 表情包来了

深度学习了40万个表情,一大波AI 表情包来了

作者头像
新智元
发布于 2018-06-22 08:08:13
发布于 2018-06-22 08:08:13
1.4K0
举报
文章被收录于专栏:新智元新智元

新智元报道

来源:Arxiv

编辑:闻菲

【新智元导读】深度学习生成表情包,笑不笑由你。

自从有了表情包,跟人聊天时的第一反应,就是去找找看有什么适合的表情。

有一类表情包,形式是文字+图,尤其能够精妙地抒发和传递感情。

在这一点上,可能全世界的网友都一样。

好用的表情永远不嫌多,而且似乎总是不够用。

怎么办?

好在我们有深度学习。

表情包,一个天然的图说生成问题

斯坦福大学的Abel L. Peirson V和E. Meltem Tolunayl,在这一期斯坦福深度学习自然语言处理课程CS224n的期末作业中,提交了一个表情包生成器,使用深度学习,制作“图片+文字”型的表情包。

下面这些都是他们的系统自动生成的结果。不得不说,深得表情包制作精髓。

这个表情包生成器的基本的框架是一个编码器-解码器图说生成系统,先进行CNN图像嵌入,然后用一个LSTM RNN进行文字生成。

其中,编码器的目标是要给出一个有意义的状态,让解码器开始进行文字生成。他们使用在ImageNet上预训练的Inception-v3做为编码器模型,并将最后一层隐藏CNN作为编码器的输出。当表情包模板进入Inception模型后,输出是一组长度固定的向量,也即图像嵌入,能够反映图像的内容。这个图像嵌入之后会被投射到词嵌入空间里,方便后续文字生成。

他们一共尝试了3种不同的编码器模型,最简单的一种只输入图像,另一种输入图像和标签,最后一种的输入也是图像和标签,但使用了注意力机制。至于解码器,都是一个单向LSTM。这样搭配组合成了3种编码器-解码器方案。下图展示了第二种方案的模型。

学习40万个表情,幽默程度媲美人类

数据集是这个表情包生成器的精髓。他们的数据集由大约40万张带标签和图说的图片组成。其中有2600个独特的图像-标签对,是他们写Python脚本从Memegenerator.net中获取的。一张图片对应一个标签,标签是对这幅图的简单描述,而每张图都与很多不同的图说(大约160个)相关联。

下图展示了数据的样本:

在训练前,他们还针对图说中的标点、格式和某些词出现的频率等进行了预处理。

训练的结果,深度学习生成了各种表情:

系统看过的图像(左边4张)的输入标签是来自训练集的标签,而对于没见过的图像(右边4张),我们使用的句子是“AI是新的电力”。

从语法、搞笑程度和可区分性(分辨是人制作的还是深度学习生成的)几个维度判断,深度学习表情包生成器取得了不错的效果。尤其是搞笑程度,因为这一点是制作表情包的初衷,普通表情包的搞笑程度7分(满分10分),深度学习生成的表情包最高达到了6.8。

两位作者指出,幽默是很难评判的事情,本身就是一个很深的研究领域。他们的这项工作十分基础,接下来如果能构建出能够自动断句的表情包生成器(就是自动判断图片上方和下方两行文字从哪里断开),将会是一个很大的进步。(因为使用的都是网络热图,因此数据含有性别歧视和不文明的成分。)此外,探索视觉注意力机制在表情包生成中的作用,也是一个不错的研究方向。

相关论文和代码

  1. Dank Learning: Generating Memes Using Deep Neural https://arxiv.org/pdf/1806.04510v1.pdf
  2. Github:https://github.com/alpv95/MemeProject
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-06-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
AI表情包生成器来了!给AI喂了96万个表情包文案,做出的图能接地气吗?
最近,文摘菌就发现一位外国友人做了个AI表情包生成器,坦白讲这个生成器依然逃不过“沙雕”的标签,就像之前的“狗屁不通文章生成器”和“读后感生成器”。
大数据文摘
2020/05/19
3.8K0
AI表情包生成器来了!给AI喂了96万个表情包文案,做出的图能接地气吗?
1KB/s 也能开畅享视频会议?信号不好不再是借口!
论文标题:A Generative Compression Framework For Low Bandwidth Video Conference
用户1324186
2021/07/29
1K0
斯坦福大学研究人员利用AI生成表情包
目前,人工智能可以做许多事情,比如从2D图片生成物体的3D模型,击败面部识别系统或识别野生动物,现在它也能生成表情包了。
AiTechYun
2018/07/27
4770
斯坦福大学研究人员利用AI生成表情包
一言不合就想斗图?快用深度学习帮你生成表情包
AI研习社:斯坦福大学的两个学生 Abel L Peirson V 和 Meltem Tolunay 发表了自己的 CS224n 结业论文—— 用深度神经网络生成表情包(你没有看错)。论文主要内容是根据图片内容生成有关联的说明(吐槽)。可能该论文没有其他论文那么的一本正经,但在思路也算清奇,论文和代码已经公布。AI 科技评论也简单介绍一下论文内容。
AI研习社
2018/07/26
8620
一言不合就想斗图?快用深度学习帮你生成表情包
一个神经网络实现4大图像任务,GitHub已开源
本文构建了一个能同时完成四个任务的的深度神经网络: 生成图像描述、生成相似单词、以图搜图和根据描述搜图。传统上这些任务分别需要一个模型,但我们现在要用一个模型来完成所有这些任务。
IT派
2019/06/10
1.1K0
一个神经网络实现4大图像任务,GitHub已开源
四个任务就要四个模型?现在单个神经网络模型就够了!
AI 科技评论按:顾名思义,「表示」(representation)就是指在网络中对信息进行编码的方式。为了让大家充分理解「表示」,本文作者尝试构建一个能同时完成图像描述,相似词、相似图像搜索以及通过描述图像描述搜索图像四项任务的深度神经网络,从实操中让大家感受「表示」的奇妙世界。
AI研习社
2019/05/08
5700
四个任务就要四个模型?现在单个神经网络模型就够了!
深度学习的57个名词解释及相关论文资料
一、激活函数(AcTIvaTIon FuncTIon) 为了让神经网络能够学习复杂的决策边界(decision boundary),我们在其一些层应用一个非线性激活函数。常用的函数有sigmoid
企鹅号小编
2017/12/27
2.1K0
深度学习的57个名词解释及相关论文资料
Rethink Deepfakes,浅谈深度学习落地
AI 科技评论按:本文为兔子老大为雷锋网 AI 科技评论撰写的独家稿件,未经许可禁止转载。
AI研习社
2019/05/13
7490
Rethink Deepfakes,浅谈深度学习落地
深度学习视觉研究综述
近年来,深度学习在计算机视觉各个领域中的应用成效显著,新的深度学习方法和深度神经网络模型不断涌现,算法性能被不断刷新。
算法进阶
2023/10/10
8260
深度学习视觉研究综述
深度学习快速参考:11~13
在上一章中,我们讨论了文档分类以及文档分类的一种特殊情况,称为情感分类。 这样做时,我们不得不谈论很多关于向量化的知识。
ApacheCN_飞龙
2023/04/23
8200
深度学习与计算机视觉教程(16) | 生成模型(PixelRNN,PixelCNN,VAE,GAN)(CV通关指南·完结🎉)
本系列为 斯坦福CS231n 《深度学习与计算机视觉(Deep Learning for Computer Vision)》的全套学习笔记,对应的课程视频可以在 这里 查看。更多资料获取方式见文末。
ShowMeAI
2022/06/14
1.2K0
深度学习与计算机视觉教程(16) | 生成模型(PixelRNN,PixelCNN,VAE,GAN)(CV通关指南·完结🎉)
深度学习架构的对比分析
深度学习的概念源于人工神经网络的研究,含有多个隐藏层的多层感知器是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示,以表征数据的类别或特征。它能够发现数据的分布式特征表示。深度学习是机器学习的一种,而机器学习是实现人工智能的必经之路。
半吊子全栈工匠
2023/09/02
8790
深度学习架构的对比分析
Text to image论文精读 GAN-CLS和GAN-INT:Generative Adversarial Text to Image Synthesis
这是一篇用GAN做文本生成图像(Text to Image、T2I)的论文,文章在2016年由Reed等人发布,被ICML会议录取。可以说是用GAN做文本生成图像的开山之作。
中杯可乐多加冰
2024/04/28
2890
深度学习2017成果展
来源:Statsbot 编译:Bing 编者按:圣诞节前夕,数据公司Statsbot对过去一年(也许更久)深度学习领域的成果做了总结,全文共分为6部分,分别是文本、语音、计算机视觉、GAN、强化学习、新闻、投资。以下是论智对原文的编译,让我们看看深度学习2017年的成绩如何。 文本 1.1 谷歌神经机器翻译 去年9月,谷歌发布了新一代机器翻译模型,并详细介绍了该网络的架构——循环神经网络(RNN)。 最终,该模型在翻译的准确度上与人类缩小了55%~85%的差距(由人类打分,满分为6)。如果没有谷歌庞大的
企鹅号小编
2018/01/24
8350
深度学习2017成果展
【译】图上的深度学习综述 五、图自编码器
自编码器(AE)及其变体被广泛用于无监督学习 [74],它适用于学习没有监督信息的图节点表示。 在本节中,我们将首先介绍图自编码器,然后转向图变分自编码器和其他改进。表 4 总结了所调查的 GAE 的主要特征。
ApacheCN_飞龙
2022/05/07
1.5K0
【译】图上的深度学习综述 五、图自编码器
王的机器带你学 MIT 深度学习导论课
深度学习并不是和机器学习并列的一个科目,而且用神经网络模型来处理机器学习里的有监督学习、无监督学习和强化学习这些子类 (注意这些红蓝绿颜色对应的名词),如下图所示 (我书中还多提到了「深度半监督学习」和「深度迁移学习」):
用户5753894
2019/07/05
9220
王的机器带你学 MIT 深度学习导论课
深度学习算法简要综述(下)
原文:https://theaisummer.com/Deep-Learning-Algorithms/
kbsc13
2020/04/07
5200
深度学习算法简要综述(下)
多模态大模型技术原理与实战(4)
以 CNN 为图像编码器,以 RNN为文本解码器,编码器和解码器之间依靠图像的隐状态连接
顾翔
2024/09/10
1510
多模态大模型技术原理与实战(4)
爱因斯坦未披露演讲公开了?不,这只是一张图、一段音合成的AI视频
还记得那个「会说话」的蒙娜丽莎吗?机器之心前不久报道了一项来自三星莫斯科 AI 中心和 Skolkovo 科学技术研究所的研究。在那项研究中,研究人员利用一张图像就合成了人物头像的动图,而且头像中的人物可以「说话」(只动嘴不发声)。蒙娜丽莎、梦露等名人画像、照片都可以用来作为「原料」。
机器之心
2019/07/02
1.2K0
爱因斯坦未披露演讲公开了?不,这只是一张图、一段音合成的AI视频
全面!深度学习时间序列分类的综述!
时间序列分析中的时间序列分类(TSC)是关键任务之一,具有广泛的应用,如人体活动识别和系统监测等。近年来,深度学习在TSC领域逐渐受到关注,具有自动从原始时间序列数据中学习并抽取有意义特征的能力。
算法进阶
2024/05/02
3.2K0
全面!深度学习时间序列分类的综述!
推荐阅读
相关推荐
AI表情包生成器来了!给AI喂了96万个表情包文案,做出的图能接地气吗?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档