开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

直接训练Transformer编码层和填充序列的正确方法

基础概念

Transformer是一种基于自注意力机制的深度学习模型，广泛应用于自然语言处理（NLP）任务中。Transformer模型由编码器和解码器组成，其中编码器负责将输入序列转换为一系列的上下文向量，解码器则利用这些上下文向量生成输出序列。

直接训练Transformer编码层

直接训练Transformer编码层意味着我们只关注编码器的训练，而不涉及解码器部分。这在某些任务中是可行的，例如文本分类、命名实体识别等。

优势

简化模型：减少了模型的复杂度，使得训练更加高效。
适用性广：适用于多种NLP任务，尤其是那些不需要生成序列的任务。

类型

单向编码器：只从左到右处理输入序列。
双向编码器：同时从左到右和从右到左处理输入序列，通常使用双向LSTM或Transformer的自注意力机制。

填充序列

在处理不等长的序列时，通常需要对序列进行填充（padding），使其长度一致，以便于批处理。填充序列是指在较短的序列后面添加特定的填充标记（如0），使其长度与最长的序列相同。

应用场景

批处理：在GPU上进行批处理时，需要所有序列的长度一致。
RNN和Transformer：这些模型要求输入序列的长度一致。

遇到的问题及解决方法

问题1：填充序列导致的信息损失

原因：填充的标记（如0）可能会被模型误认为是有效的输入，从而影响模型的性能。

解决方法：

使用掩码（Masking）：在计算损失和梯度时，忽略填充部分的影响。例如，在TensorFlow中可以使用tf.keras.layers.Masking层。
使用特殊的填充标记：选择一个不太可能出现在实际数据中的标记作为填充标记。

import tensorflow as tf

# 示例代码
input_layer = tf.keras.layers.Input(shape=(None, vocab_size))
masking_layer = tf.keras.layers.Masking(mask_value=0.0)(input_layer)
encoder_layer = tf.keras.layers.Transformer(num_layers=4, d_model=vocab_size, num_heads=8, dff=2048)(masking_layer)

问题2：训练效率低下

原因：填充序列可能导致批处理的大小减小，从而影响训练效率。

解决方法：

动态填充：在每个批次中动态地填充序列，使其长度尽可能接近，但不超过某个最大值。
使用更高效的硬件：如使用具有更大内存的GPU或TPU。

参考链接

通过上述方法和技巧，可以有效地训练Transformer编码层并处理填充序列的问题。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Shreya Gherani：BERT庖丁解牛（Neo Yan翻译）

BERT是双向转换器（Bi-Transformer）的缩写。这是谷歌在2018年末开发并发布的一种新型语言模型。BERT等经过预处理的语言模型在问答、命名实体识别、自然语言推理、文本分类等自然语言处理任务中发挥着重要作用。

01

【调研】详解Transformer结构——Attention Is All You Need

Transformer是一个完全依赖自注意力的面向sequence to sequence任务的NLP模型，由谷歌大脑在17年的论文《Attention is all you need》中首次提出。它抛弃了传统的CNN和RNN神经网络，整个网络结构完全由Attention机制以及前馈神经网络组成，它解决了RNN长期依赖和无法并行化以及CNN缺失全局特征等问题。（尽管LSTM等门机制的结构一定程度上缓解了长期依赖的问题，但是对于特别长期的依赖现象,LSTM依旧无能为力。）

03

Transformers回顾：从BERT到GPT4

人工智能已成为近年来最受关注的话题之一，由于神经网络的发展，曾经被认为纯粹是科幻小说中的服务现在正在成为现实。从对话代理到媒体内容生成，人工智能正在改变我们与技术互动的方式。特别是机器学习 (ML) 模型在自然语言处理 (NLP) 领域取得了重大进展。一个关键的突破是引入了“自注意力”和用于序列处理的Transformers架构，这使得之前主导该领域的几个关键问题得以解决。

01

邱锡鹏，这是Transformer最全综述

自 2017 年 6 月谷歌发布论文《Attention is All You Need》后，Transformer 架构为整个 NLP 领域带来了极大的惊喜。在诞生至今仅仅四年的时间里，Transformer 已经成为自然语言处理领域的主流模型，基于 Transformer 的预训练语言模型更是成为主流。

02

文本太长，Transformer用不了怎么办

基于Transformer的模型已经引领NLP领域，然而基于Transformer的方法随着输入文本长度的增加，计算量剧增，并且Transformer能处理的句子长度受限，已有的方法大多使用截断的方式，这会导致信息损失，因此如何实现长文本的预训练是目前的一大难题。

04

Transformer直接预测完整数学表达式，推理速度提高多个数量级

点击上方↑↑↑“OpenCV学堂”关注我来源：公众号机器之心授权来自 Mata AI、法国索邦大学、巴黎高师的研究者成功让 Transformer 直接预测出完整的数学表达式。符号回归，即根据观察函数值来预测函数数学表达式的任务，通常涉及两步过程：预测表达式的「主干」并选择数值常数，然后通过优化非凸损失函数来拟合常数。其中用到的方法主要是遗传编程，通过多次迭代子程序实现算法进化。神经网络最近曾在一次尝试中预测出正确的表达式主干，但仍然没有那么强大。在近期的一项研究中，来自 Meta AI（Fac

04

Transformer模型有多少种变体？复旦邱锡鹏教授团队做了全面综述

机器之心报道编辑：Liyuan、杜伟自提出至今，Transformer 模型已经在自然语言处理、计算机视觉以及其他更多领域「大展拳脚」，学界也提出了各种各样基于原始模型的变体。但应看到，学界依然缺少系统全面的 Transformer 变体文献综述。复旦大学邱锡鹏教授团队的这篇综述正好弥补了这一空缺。自 2017 年 6 月谷歌发布论文《Attention is All You Need》后，Transformer 架构为整个 NLP 领域带来了极大的惊喜。在诞生至今仅仅四年的时间里，Transform

02

Transformer直接预测完整数学表达式，推理速度提高多个数量级

机器之心报道机器之心编辑部来自 Mata AI、法国索邦大学、巴黎高师的研究者成功让 Transformer 直接预测出完整的数学表达式。符号回归，即根据观察函数值来预测函数数学表达式的任务，通常涉及两步过程：预测表达式的「主干」并选择数值常数，然后通过优化非凸损失函数来拟合常数。其中用到的方法主要是遗传编程，通过多次迭代子程序实现算法进化。神经网络最近曾在一次尝试中预测出正确的表达式主干，但仍然没有那么强大。在近期的一项研究中，来自 Meta AI（Facebook）、法国索邦大学、巴黎高师的研究

02

Attention is all you need 论文解析（附代码）

大数据文摘转载自数据派THU 作者：杨金珊审校：陈之炎 “Attention is all you need”一文在注意力机制的使用方面取得了很大的进步，对Transformer模型做出了重大改进。目前NLP任务中的最著名模型（例如GPT-2或BERT），均由几十个Transformer或它们的变体组成。背景减少顺序算力是扩展神经网络GPU、ByteNet和ConvS2S的基本目标，它们使用卷积神经网络作为基本构建块，并行计算所有输入和输出位置的隐含表示。在这些模型中，将来自两个任意输入或输出位置

01

原创 | Attention is all you need 论文解析（附代码）

作者：杨金珊审校：陈之炎本文约4300字，建议阅读8分钟“Attention is all you need”一文在注意力机制的使用方面取得了很大的进步，对Transformer模型做出了重大改进。

04

Transformers 4.37 中文文档（十二）

🤗 Transformers 是一个预训练的最先进模型库，用于自然语言处理（NLP）、计算机视觉以及音频和语音处理任务。这个库不仅包含了 Transformer 模型，还有像现代卷积网络这样的非 Transformer 模型，用于计算机视觉任务。如果你看一下今天最流行的消费产品，比如智能手机、应用和电视，很可能背后都有某种深度学习技术。想要从智能手机拍摄的照片中移除背景物体？这就是一个全景分割任务的例子（如果你还不知道这是什么，不用担心，我们将在接下来的部分中描述！）。

01

【NLP】Facebook提出的预训练模型BART

近日，Facebook 发表论文，提出一种为预训练序列到序列模型而设计的去噪自编码器 BART。BART 通过以下步骤训练得到：1）使用任意噪声函数破坏文本；2）学习模型来重建原始文本。BART 使用基于 Transformer 的标准神经机器翻译架构，可泛化 BERT（具备双向编码器）、GPT（具备从左至右的解码器）等近期出现的预训练模型，尽管它非常简洁。Facebook 研究人员评估了多种噪声方法，最终通过随机打乱原始句子的顺序，再使用新型文本填充方法（即用单个 mask token 替换文本段）找出最优性能。

01

多项NLP任务新SOTA，Facebook提出预训练模型BART

近日，Facebook 发表论文，提出一种为预训练序列到序列模型而设计的去噪自编码器 BART。BART 通过以下步骤训练得到：1）使用任意噪声函数破坏文本；2）学习模型来重建原始文本。BART 使用基于 Transformer 的标准神经机器翻译架构，可泛化 BERT（具备双向编码器）、GPT（具备从左至右的解码器）等近期出现的预训练模型，尽管它非常简洁。Facebook 研究人员评估了多种噪声方法，最终通过随机打乱原始句子的顺序，再使用新型文本填充方法（即用单个 mask token 替换文本段）找出最优性能。

02

模型层

torch.nn中内置了非常丰富的各种模型层。它们都属于nn.Module的子类，具备参数管理功能。

01

《机器学习实战：基于Scikit-Learn、Keras和TensorFlow》第16章使用RNN和注意力机制进行自然语言处理

自然语言处理的常用方法是循环神经网络。所以接下来会从 character RNN 开始（预测句子中出现的下一个角色），继续介绍RNN，这可以让我们生成一些原生文本，在过程中，我们会学习如何在长序列上创建TensorFlow Dataset。先使用的是无状态RNN（每次迭代中学习文本中的随机部分），然后创建一个有状态RNN（保留训练迭代之间的隐藏态，可以从断点继续，用这种方法学习长规律）。然后，我们会搭建一个RNN，来做情感分析（例如，读取影评，提取评价者对电影的感情），这次是将句子当做词的序列来处理。然后会介绍用RNN如何搭建编码器-解码器架构，来做神经网络机器翻译（NMT）。我们会使用TensorFlow Addons项目中的 seq2seq API 。

02

超详细的 Bert 文本分类源码解读 | 附源码

在本文中，我将以run_classifier.py以及MRPC数据集为例介绍关于bert以及transformer的源码，官方代码基于tensorflow-gpu 1.x，若为tensorflow 2.x版本，会有各种错误，建议切换版本至1.14。

04

You Only Cache Once:YOCO 基于Decoder-Decoder 的一个新的大语言模型架构

这是微软再5月刚刚发布的一篇论文提出了一种解码器-解码器架构YOCO，因为只缓存一次KV对，所以可以大量的节省内存。

01

LSTM还没「死」！

长短期记忆（Long Short-Term Memory，LSTM）是一种时间循环神经网络（RNN），论文首次发表于1997年。由于独特的设计结构，LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件。在过去几十年里，LSTM发展如何了？密切关注机器学习的研究者，最近几年他们见证了科学领域前所未有的革命性进步。这种进步就像20世纪初，爱因斯坦的论文成为量子力学的基础一样。只是这一次，奇迹发生在AlexNet论文的推出，该论文一作为Alex Krizhevsky，是大名鼎鼎Hinton的优秀学生代表之一。AlexNet参加了2012年9月30日举行的ImageNet大规模视觉识别挑战赛，达到最低的15.3%的Top-5错误率，比第二名低10.8个百分点。这一结果重新燃起了人们对机器学习（后来转变为深度学习）的兴趣。我们很难评估每次技术突破：在一项新技术被引入并开始普及之前，另一项技术可能变得更强大、更快或更便宜。技术的突破创造了如此多的炒作，吸引了许多新人，他们往往热情很高，但经验很少。深度学习领域中一个被误解的突破就是循环神经网络（Recurrent neural network：RNN）家族。如果你用谷歌搜索诸如「LSTMs are dead」「RNNs have died」短语你会发现，搜索出来的结果大部分是不正确的或者结果太片面。本文中数据科学家Nikos Kafritsas撰文《Deep Learning: No, LSTMs Are Not Dead!》，文中强调循环网络仍然是非常有用的，可应用于许多实际场景。此外，本文不只是讨论LSTM和Transformer，文中还介绍了数据科学中无偏评估这一概念。以下是原文内容，全篇以第一人称讲述。

01

聊聊GLM基座模型的理论知识

input输入层会预处理输入数据，在预训练过程中，该输入数据，其实就是预先准备好的预料数据集，也就是常说的6B，130B大小的数据集。

01

LSTM还没「死」！

点击机器学习算法与Python学习，选择加星标精彩内容不迷路选自towardsdatascience 机器之心编译如果说「LSTM」已死，它为何依然能够在Kaggle竞赛中成为赢家呢？长短期记忆（Long Short-Term Memory，LSTM）是一种时间循环神经网络（RNN），论文首次发表于1997年。由于独特的设计结构，LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件。在过去几十年里，LSTM发展如何了？密切关注机器学习的研究者，最近几年他们见证了科学领域前所

02

LSTM还没「死」！

选自towardsdatascience 作者：Nikos Kafritsas 机器之心编译编辑：杜伟、陈萍如果说「LSTM」已死，它为何依然能够在Kaggle竞赛中成为赢家呢？长短期记忆（Long Short-Term Memory，LSTM）是一种时间循环神经网络（RNN），论文首次发表于1997年。由于独特的设计结构，LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件。在过去几十年里，LSTM发展如何了？密切关注机器学习的研究者，最近几年他们见证了科学领域前所未有的革命

06

通俗理解ChatGPT中Transformer架构

Transformer架构是由Vaswani等人在2017年提出的一种深度学习模型，它在自然语言处理（NLP）领域取得了革命性的进展。Transformer的核心思想是使用自注意力（Self-Attention）机制来捕捉输入序列中的长距离依赖关系，而无需依赖于循环神经网络（RNN）或卷积神经网络（CNN）。以下是Transformer架构的详细介绍和实现原理： 1. 多头自注意力机制（Multi-Head Self-Attention）自注意力机制是Transformer的核心，它允许模型在处理序列的每个元素时，同时考虑序列中的所有其他元素。这种机制通过计算每个元素对其他元素的注意力权重来实现，这些权重表明了在生成当前元素时，其他元素的重要性。多头自注意力机制进一步扩展了自注意力的概念，它包含多个注意力“头”，每个头学习序列的不同方面。这增加了模型的表达能力，因为它可以从多个角度理解数据。 2. 位置编码（Positional Encoding）由于Transformer模型没有循环结构，它需要一种方式来理解单词在序列中的位置。位置编码通过向输入添加额外的信息来解决这个问题，这些信息指示了单词在序列中的位置。位置编码通常使用正弦和余弦函数的组合来生成，这允许模型学习到序列中元素的相对位置。 3. 编码器和解码器层（Encoder and Decoder Layers） Transformer模型由编码器和解码器组成，每个部分包含多个层。编码器用于处理输入序列，解码器用于生成输出序列。 - **编码器**：由多个相同的层堆叠而成，每层包含自注意力机制和前馈神经网络。自注意力机制用于捕捉输入序列内部的依赖关系，而前馈网络则对每个位置的表示进行独立处理。 - **解码器**：也由多个相同的层堆叠而成，每层包含自注意力机制、编码器-解码器注意力机制和前馈神经网络。编码器-解码器注意力机制允许解码器关注输入序列中的相关部分。 4. 层归一化和残差连接为了稳定训练过程，Transformer模型在每个子层（自注意力和前馈神经网络）的输出上应用层归一化。此外，每个子层的输出都会通过一个残差连接，然后将结果传递给下一个子层。这种设计有助于缓解梯度消失问题，使得模型可以更有效地学习。

01

多模态学习——【NeurIPS 2019】ViLBERT

本文提出的ViLBERT是一个能够从视觉-语言数据集中学习到任务无关的视觉基础知识的联合模型。ViLBERT扩展了BERT模型以共同推理文本和图像。本文的关键创新点在于提出一种双流机制，即分别面向视觉和语言的流。该双流能够在共注意力transformer层进行交互：

03

PlaneTR：一种用于提取场景中3D平面特征的Transformer(ICCV 2021)

论文标题：PlaneTR: Structure-Guided Transformers for 3D Plane Recovery

03

【DL】Self-Attention与Transformer

答：编码器-解码器（Encoder-Decoder）模型最初是由Cho等提出应用在机器翻译中。由于在机器翻译中是文本到文本的转换，比如将法语翻译成英语，Sutskever等也称编码器-解码器模型为序列到序列学习（Seq2Seq）。

04

大语言模型的预训练[1]:基本概念原理、神经网络的语言模型、Transformer模型原理详解、Bert模型原理介绍

预训练属于迁移学习的范畴。现有的神经网络在进行训练时，一般基于反向传播（Back Propagation，BP）算法，先对网络中的参数进行随机初始化，再利用随机梯度下降（Stochastic Gradient Descent，SGD）等优化算法不断优化模型参数。而预训练的思想是，模型参数不再是随机初始化的，而是通过一些任务进行预先训练，得到一套模型参数，然后用这套参数对模型进行初始化，再进行训练。

01

聊聊HuggingFace Transformer

一个完整的transformer模型主要包含三部分：Config、Tokenizer、Model。

01

浙大蔡登团队：基于序列对比学习的长视频逐帧动作表征

浙大蔡登团队携手微软亚洲研究院，提出了一个新的对比动作表征学习（CARL）框架，以自监督的方式学习逐帧动作表征，尤其是针对长视频；它考虑了时空上下文来提取逐帧表征，是一种基于Transformer的简单而高效的视频编码器。

02

像Transformer一样思考！DeepMind发布全新模型设计工具Tracr：从可解释逻辑反向搭建模型

---- 新智元报道编辑：LRS 【新智元导读】代码直接编译成Transformer模型，做实验从未如此轻松！「可解释性」一直是深度学习难以绕过的难题，用户无法理解模型的运行机制，也就无法放心地把模型应用到实际场景中。最近来自苏黎世联邦理工学院和DeepMind的研究人员提出了一种全新的模型构造工具Tracr，直接由人来根据「已知的机制」针对不同任务编写代码，然后由Tracr编译成模型的权重，让模型的解释变得更轻松！论文链接：https://arxiv.org/pdf/2301.0506

04

如何微调BERT模型进行文本分类

BERT（Bidirectional Encoder Representations from Transformers）在各种自然语言处理任务中提供了最前沿的结果在深度学习社区引起了轰动。德夫林等人。2018 年在 Google 使用英文维基百科和 BookCorpus 开发了 BERT，从那时起，类似的架构被修改并用于各种 NLP 应用程序。XL.net 是建立在 BERT 之上的示例之一，它在 20 种不同任务上的表现优于 BERT。在理解基于 BERT 构建的不同模型之前，我们需要更好地了解 Transformer 和注意力模型。

01

NLP之从word2vec到ELMO GPT再到BERT与attention transformer过程笔记与详解

在NLP自然语言处理学习或者发展过程中，在13年word2vec word embedding后，人们发现一个单词通过Word Embedding表示，很容易找到语义相近的单词，但单一词向量表示，不可避免一词多义问题。于是迎来Google的ELMO transformer BERT等动态表征模型，BERT模型更是刷新了GLUE benchmark的11项测试任务最高记录。

08

Transformer：Attention机制、前馈神经网络、编码器与解码器

在自然语言处理领域，Transformer模型已经成为了主流的深度学习架构。凭借其强大的处理能力和高效的性能，Transformer在许多NLP任务中都取得了显著的成果。而在Transformer模型中，Attention机制起到了至关重要的作用。

01

Unsupervised NMT、PBSMT、coarse-to-fine...你都掌握了吗？一文总结机器翻译必备经典模型（二）

机器之心专栏本专栏由机器之心SOTA！模型资源站出品，每周日于机器之心公众号持续更新。本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务，并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA！模型资源站（sota.jiqizhixin.com）即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。本文将分 3 期进行连载，共介绍 18 个在机器翻译任务上曾取得 SOTA 的经典模型。第 1 期：RNNsearch、Multi-task、attention-mode

03

思维链不存在了？纽约大学最新研究：推理步骤可「省略」

这篇文章的标题甚至直接用「Let’s think dot by dot」，来对标思维链的「Let’s think step by step」，展现了「省略号」的威力。

01

一定要「分词」吗？Andrej Karpathy：是时候抛弃这个历史包袱了

机器之心报道机器之心编辑部是时候抛弃 tokenization 了？ ChatGPT 等对话 AI 的出现让人们习惯了这样一件事情：输入一段文本、代码或一张图片，对话机器人就能给出你想要的答案。但在这种简单的交互方式背后，AI 模型要进行非常复杂的数据处理和运算，tokenization 就是比较常见的一种。在自然语言处理领域，tokenization 指的是将文本输入分割成更小的单元，称为「token」。这些 token 可以是词、子词或字符，取决于具体的分词策略和任务需求。例如，如果对句子「我喜欢

02

Survey : 预训练模型在自然语言处理的现状

Pre-trained Models for Natural Language Processing: A Survey

01

【源头活水】Transformer is All You Need 论文翻译

“问渠那得清如许，为有源头活水来”，通过前沿领域知识的学习，从其他研究领域得到启发，对研究问题的本质有更清晰的认识和理解，是自我提高的不竭源泉。为此，我们特别精选论文阅读笔记，开辟“源头活水”专栏，帮助你广泛而深入的阅读科研文献，敬请关注。

02

图解Transformer（完整版）！

审稿人：Jepson，Datawhale成员，毕业于中国科学院，目前在腾讯从事推荐算法工作。

03

图解Transformer（完整版）！

审稿人：Jepson，Datawhale成员，毕业于中国科学院，目前在腾讯从事推荐算法工作。

[预训练语言模型专题] ENRIE(Tsinghua)：知识图谱与BERT相结合，为语言模型赋能助力

5-8:[BERT来临]、[浅析BERT代码]、[ERNIE合集]、[MT-DNN(KD)]

04

【综述专栏】Transformer的9种变体概览

在科学研究中，从方法论上来讲，都应“先见森林，再见树木”。当前，人工智能学术研究方兴未艾，技术迅猛发展，可谓万木争荣，日新月异。对于AI从业者来说，在广袤的知识森林中，系统梳理脉络，才能更好地把握趋势。为此，我们精选国内外优秀的综述文章，开辟“综述专栏”，敬请关注。

00

【Pre-Training】关于 Transformer 那些的你不知道的事

本博客主要是本人在学习 Transformer 时的「所遇、所思、所解」，通过以「十六连弹」的方式帮助大家更好的理解该问题。

02

【Pre-Training】关于 Transformer 那些的你不知道的事

本博客主要是本人在学习 Transformer 时的「所遇、所思、所解」，通过以「十六连弹」的方式帮助大家更好的理解该问题。

01

Transformer的一家！

而关于attention和self-attention存在非常多的形式，我们之前常见的Transformer是依赖于scaled-dot-product的形式，也就是：给定query矩阵Q, key矩阵K以及value矩阵V，那么我们的输出就是值向量的加权和，其中，分配给每个值槽的权重由Quey与相应Key的点积确定。

01

谷歌终于开源BERT代码：3 亿参数量，机器之心全面解读

今日，谷歌终于放出官方代码和预训练模型，包括 BERT 模型的 TensorFlow 实现、BERT-Base 和 BERT-Large 预训练模型和论文中重要实验的 TensorFlow 代码。在本文中，机器之心首先会介绍 BERT 的直观概念、业界大牛对它的看法以及官方预训练模型的特点，并在后面一部分具体解读 BERT 的研究论文与实现，整篇文章的主要结构如下所示：

02

降水临近预报_Weather4cast_RainAI阅读分享

Weather4cast - Super-Resolution Rain Movie Prediction under Spatio-Temporal Shifts

01

基于注意力机制，机器之心带你理解与训练神经机器翻译系统

参与：蒋思源本文是机器之心 GitHub 实现项目，我们根据谷歌的 Transformer 原论文与 Harvard NLP 所实现的代码学习构建了一个神经机器翻译系统。因此，我们希望各位读者也能根据这篇文章了解 Transformer 的架构，并动手实现一个神经机器翻译系统。自去年 6 月份「Attention is All You Need」发表以来，Transformer 受到越来越多的关注。它除了能显著提升翻译质量，同时还为很多 NLP 任务提供了新的架构。这篇论文放弃了传统基于 RNN 或

08

一文读懂 Transformer 神经网络模型

自从最新的大型语言模型（LLaM）的发布，例如 OpenAI 的 GPT 系列、开源模型 Bloom 以及谷歌发布的 LaMDA 等，Transformer 模型已经展现出了其巨大的潜力，并成为深度学习领域的前沿架构楷模。

CPVT：美团提出动态位置编码，让ViT的输入更灵活 | ICLR 2023

论文: Conditional Positional Encodings for Vision Transformers

01

一文梳理视觉Transformer架构进展：与CNN相比，ViT赢在哪儿？

机器之心报道编辑：蛋酱 Transformer 近年来已成为视觉领域的新晋霸主，这个来自 NLP 领域的模型架构在 CV 领域有哪些具体应用？。 Transformer 作为一种基于注意力的编码器 - 解码器架构，不仅彻底改变了自然语言处理（NLP）领域，还在计算机视觉（CV）领域做出了一些开创性的工作。与卷积神经网络（CNN）相比，视觉 Transformer（ViT）依靠出色的建模能力，在 ImageNet、COCO 和 ADE20k 等多个基准上取得了非常优异的性能。近日，一位名为 Nikola

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭