丹尼尔:蛋兄,好久不见,甚是想念!
蛋先生:最近忙些什么呢?
丹尼尔:没什么特别的。我最近想了解一下深度神经网络,现在哪种架构最先进?
蛋先生:一切的开始还得从 Transformer 说起
丹尼尔:Transformer?
蛋先生:是的,它是 Google 在2017年发表的一篇名为“Attention Is All You Need”的论文中提出的神经网络架构
丹尼尔:很厉害吗?
蛋先生:它现在已经成为学术界和工业界处理各种自然语言处理(NLP)任务的事实标准了
丹尼尔:哇,还有其它的吗?
蛋先生:在 Transformer 之前,RNN(循环神经网络)和 CNN(卷积神经网络)是主流,一个主要用于 NLP,一个主要用于图像。但现在,它们都被 Transformer 颠覆了
丹尼尔:不是说 Transformer 主要用于 NLP 吗?怎么也把 CNN 比下去了?
蛋先生:Transformer 在处理长序列数据和大数据集方面表现得非常出色,以至于它的应用不仅限于 NLP 领域,在图像处理等方面也有大量的应用
丹尼尔:这么厉害,为什么没怎么上热搜啊?
蛋先生:你听过 OpenAI 吗?
丹尼尔:当然啦!
蛋先生:那 GPT 呢?
丹尼尔:更是熟悉!
蛋先生:Transformer 架构的出现,加上 ULMFiT(通用语言模型微调) 的高效迁移学习方法,催生了两个著名的模型类别,一个是 BERT,一个就是 GPT
丹尼尔:What?
蛋先生:你不知道 GPT 的全称就是 Generative Pretrained Transformer 吗?
丹尼尔:嘻嘻 😁
蛋先生:在 BERT 和 GPT 的基础上,又诞生了各种各样的 Transformer 模型
丹尼尔:这么多,怎么学得完?
蛋先生:万变不离其宗,通用于所有 Transformer 模型的三个核心概念分别是:编码器-解码器,注意力机制,和迁移学习
丹尼尔:还好还好,就三个,吓死宝宝了。那先说说编码器-解码器吧
蛋先生:欲知后事如何,请听下回分解
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。