首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >闲聊AI:Transformer 短篇故事之一

闲聊AI:Transformer 短篇故事之一

原创
作者头像
蛋先生DX
发布2025-01-18 22:11:21
发布2025-01-18 22:11:21
971
举报
文章被收录于专栏:蛋先生说识蛋先生说识
image
image

丹尼尔:蛋兄,好久不见,甚是想念!

蛋先生:最近忙些什么呢?

丹尼尔:没什么特别的。我最近想了解一下深度神经网络,现在哪种架构最先进?

蛋先生:一切的开始还得从 Transformer 说起

丹尼尔:Transformer?

蛋先生:是的,它是 Google 在2017年发表的一篇名为“Attention Is All You Need”的论文中提出的神经网络架构

丹尼尔:很厉害吗?

蛋先生:它现在已经成为学术界和工业界处理各种自然语言处理(NLP)任务的事实标准了

丹尼尔:哇,还有其它的吗?

蛋先生:在 Transformer 之前,RNN(循环神经网络)和 CNN(卷积神经网络)是主流,一个主要用于 NLP,一个主要用于图像。但现在,它们都被 Transformer 颠覆了

丹尼尔:不是说 Transformer 主要用于 NLP 吗?怎么也把 CNN 比下去了?

蛋先生:Transformer 在处理长序列数据和大数据集方面表现得非常出色,以至于它的应用不仅限于 NLP 领域,在图像处理等方面也有大量的应用

丹尼尔:这么厉害,为什么没怎么上热搜啊?

蛋先生:你听过 OpenAI 吗?

丹尼尔:当然啦!

蛋先生:那 GPT 呢?

丹尼尔:更是熟悉!

蛋先生:Transformer 架构的出现,加上 ULMFiT(通用语言模型微调) 的高效迁移学习方法,催生了两个著名的模型类别,一个是 BERT,一个就是 GPT

丹尼尔:What?

蛋先生:你不知道 GPT 的全称就是 Generative Pretrained Transformer 吗?

丹尼尔:嘻嘻 😁

蛋先生:在 BERT 和 GPT 的基础上,又诞生了各种各样的 Transformer 模型

丹尼尔:这么多,怎么学得完?

蛋先生:万变不离其宗,通用于所有 Transformer 模型的三个核心概念分别是:编码器-解码器,注意力机制,和迁移学习

丹尼尔:还好还好,就三个,吓死宝宝了。那先说说编码器-解码器吧

蛋先生:欲知后事如何,请听下回分解

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档