导语:深度学习正在应用于越来越多的领域和行业。从无人驾驶汽车到播放Go,再到生成图像的音乐,每天都会有新的深度学习模型出现。在这里,我们介绍几种流行的深度学习模型。科学家和开发人员正在采用这些模型并以创新的方式对其进行修改。我们希望这个展示会激发您的灵感,看看有什么可能。
如果您曾经使用过Instagram或Snapchat,那么您熟悉使用可以改变图像亮度,饱和度,对比度等的滤镜。神经风格,一种深度学习算法,超越了过滤器,允许您转换一个图像的风格,也许是梵高的“星夜”,并将该风格应用到任何其他图像上。神经风格使用深度神经网络来分离和重新组合任何两个图像的内容和样式。它是第一个提供创作艺术图像算法的人工神经网络(ANN)之一。该模型有两个输入图像,一个用于样式,另一个用于内容。在卷积神经网络(CNN)层级中的每个处理阶段,图像被分成一组滤波图像。虽然不同过滤器的数量沿着处理层级增加,但是过滤图像的总体大小减小,导致每层网络的单元总数减少。
上图显示了CNN中不同处理阶段的信息。来自较低层(a,b,c)的内容重建几乎是原始图像的精确复制品。然而,在网络的较高层中,详细的像素信息丢失,而高级结构和细节保持相同(d,e)。同时,模型在内容CNN表示之上捕获另一输入图像的样式。然后,样式表示在CNN的不同层中的不同特征之间绘制连接。然后,模型在每个CNN层内的内容表示之上重建输入图像的样式。当您在网络的层次结构中移动时,这将创建与样式相匹配的图像。
神经故事讲述者是一种模型,当给出图像时,可以生成关于图像的浪漫故事。这是一个有趣的玩具,你可以想象未来,看看所有这些人工智能模型的发展方向。我在同一时间向河望去,因为它已经开始褪色。事实上,有很多次我想知道在我脑海里发生了什么。在远处,她从湖中撤出,进入森林。她不知道该怎么办他。事实上,他很可能会离开她。我妈妈的肢体语言告诉我她很漂亮,但大多数时候,我深吸一口气。她可能想挂在悬崖上,把它留在一个地狱般的湖中。
构建神经网络模型以实现目标越来越多地涉及构建更大和更复杂的流水线,其可以包括将不同算法混合和匹配在一起。神经故事讲述者由四个主要部分组成:跳过思维向量,图像句子嵌入,样式移位和条件神经语言模型。跳过思维向量是一种在无人监督(从无标签数据推断函数)方式中编码文本的方法。通过利用文本的连续性,系统以无人监督的方式工作。对于文本中的任何给定句子,它会尝试重建周围的文本。对于神经故事讲述者,浪漫小说被转换为跳过思维的向量。
构建另一个单独的模型,即视觉语义嵌入模型,以便在给定图像时,它输出描述该图像的句子。用于训练此数据集的数据集称为MSCOCO。有许多模型已经这样做,例如NeuralTalk。有了这两个模型,它们现在可以连接在一起,以获得我们正在寻找的结果。另一个编写的程序基本上就是这个函数:F(x)=x-c+b在此函数中,x表示图像标题,c表示“标题样式”,b表示“书籍样式”。该功能的想法可以转化为:保持标题的“思想”,但将图像标题样式替换为故事的标题样式。在函数c中,通过获取为图像生成的顶部MSCOCO标题的平均值来生成标题样式。而b是浪漫小说段落的跳过思想向量的意思。
上述功能是“风格转换”操作,允许模型将标准图像标题转换为小说中的故事风格。风格转变的灵感来自“艺术风格的神经算法”。此模型中使用了两种主要的数据源。MSCOCO是Microsoft的数据集,包含大约300,000张图像,每张图像包含五个字幕。MSCOCO是唯一使用的监督数据,这意味着它是人类必须进入并为每个图像明确写出字幕的唯一数据。另一个数据源称为BookCorpus。该模型在BookCorpus的一部分上进行了训练,特别是来自浪漫小说的1100万段。但BookCorpus还包含冒险,科幻和其他类型的书籍。
直到最近,大多数计算机科学家已经主要与前馈神经网络计算的预测问题,实验,例如,是一个电子邮件消息垃圾邮件或不?在典型的前馈神经网络中,输入被给予模型。然后,模型处理隐藏层中幕后的输入并吐出输出。隐藏层以一种金字塔结构排列,其中每个较高层是基于来自每个连续下层的输入和计算来计算的,但反之亦然(较高层级别不影响较低层)。例如,前馈网络可用于确定图像中的对象。较低层将分析对象的形状和线条,而较高层将组合形状并对对象进行分类。
前馈神经网络的主要局限之一是它没有记忆。每个预测都独立于先前的计算,就好像它是网络有史以来第一次也是唯一的预测。但对于许多任务,例如翻译句子或段落,输入应包括顺序和上下文相关的数据。例如,如果没有周围单词提供的上下文,就很难理解句子中的单个单词。
RNN是不同的,因为它们在神经元之间添加了另一组连接。这些链接允许来自隐藏层中的神经元的激活在序列的下一步骤中反馈回自身。换句话说,在每个步骤中,隐藏层都从其下面的层接收激活,也从序列中的前一步骤接收激活。该结构基本上给出了递归神经网络存储器。因此,对于物体检测的任务,RNN可以利用其先前的狗分类来帮助确定当前图像是否是狗。隐藏层中的这种灵活结构允许RNN非常适合字符级语言模型。CharRNN最初由AndrejKarpathy创建,是一个模型,它将一个文本文件作为输入并训练RNN以学习预测序列中的下一个字符。RNN可以逐字符地生成文本,看起来像原始训练数据。使用各种TED演讲的成绩单训练了一个演示。为模型提供一个或多个关键字,它将生成关于TED对话的语音/风格中的关键字的段落。
总结:这些模型展示了机器智能领域的新突破,这些突破因深入学习而成为可能。深度学习表明,我们可以解决以前永远无法解决的问题,而且我们还没有达到这个高原。由于深度学习创新,预计未来几年会有更多令人兴奋的事情,如无人驾驶汽车。
领取专属 10元无门槛券
私享最新 技术干货