首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Transformer 网络

Transformer 网络

作者头像
卡伊德
发布于 2022-09-13 07:06:39
发布于 2022-09-13 07:06:39
5630
举报
文章被收录于专栏:caidblogcaidblog

Transformer

从整体框架来讲,Transformer其实就是encode-decode框架,即就是编码解码。只不过在编码和解码的内部比较复杂,经过了多次复杂计算。

比如说,encode编码阶段,其内部整体框架如图所示。

在图上可以看出,首先输入所有的向量,然后经过多次block的计算,最终得到相同数量的输出结果向量。其中每个block内部包含一层自注意力机制、一层全连接层。同样,在自注意力机制中,计算每个向量时都会考虑其他元素。区别是,在transformer的自注意力机制结束后,不是直接送入下一层,而是将自注意力机制的结果和输入向量相加后再送入下一层

Encoding 编码

其中,详细来讲,整个encode的详细计算过程如图所示。

在上图中,其右侧为官方所给出的encoding内部的结构。其过程为:

    1. 首先,将输入向量输入到embedding中,从而得到embedding后的结果,然后加上位置编码结果。
    2. 再将结果送入block。再block中首先进行多头注意力机制,然后将执行Add & Norm,Add & Norm指的是首先执行Residual,而Residual如下图所示,指的是将自注意力机制的结果和输入向量进行相加,其结果为residual集合。
    3. 然后进行layer norm操作,该操作如下图所示,输入一个向量则对应输出一个向量,在此过程中首先计算输入向量的均值、方差,以及标准差,然后根据以下公式

    ​ 分别计算norm后的结果。

    1. 最后,将结果送入全连接层,同样再进行一次Add和Norm操作,输出结果向量,编码阶段完成。

Decoding 解码

整体而言,以语音识别为例,再解码阶段,首先将编码结果作为输入,具体过程:

  • 第一步:自定义一个指定符号的开始字符,和编码结果一起输入到解码器中,解码器会输出结果再进行一次softmax,最终输出一个结果向量,向量值为第一个词是词库里每一个词的概率,其最大概率所对应的字符即为第一个词。
  • 第二步:将第一步的记过作为输入,输入到解码器中,用同样的方法得出第二个值,一次类推,最终得到输出结果。

具体如下图所示。

解码过程中,官网所给出的详细解码过程如图所示:

整体上看,和解码过程非常的类似,区别就是再解码过程中多了一层Masked注意力机制。Masked self-attention的核心是:在计算每一个元素时,并不是和之前一样考虑所有的输入元素,而是只考虑当前计算元素之前的元素,并不考虑还未计算的元素。如下图所示。

在上图左图中可以清晰的看到,在计算b1的时候,不考虑任何元素,因为在计算b1时,还未生成任何元素,即就是a1之前没有其他输入元素。在计算b2时,只考虑a2前面的元素a1,而不考虑a2之后的元素(a3, a4)。同样计算b3时,只考虑a1, a2而不考虑a4。计算过程如上图右图所示。其实也很好理解,在解码阶段中,当计算a2时,a3和a4并未生成。

编码->解码

在整个transformer中,分为编码和解码阶段。其中在解码阶段的中间一个block(如上面解码框架图所示)中,包含编码的两个输入和解码阶段第一个block的输出结果,一起输入到中间的block。如下图中蓝色圈所示。整个block称为cross attention。

在cross attention中,具体计算如下图所示,首先,从编码的输出结果中计算得出ki和vi,在通过将解码阶段第一个block的输出结果计算得到q,然后,使用ki和q进行一定的得分运算,得到权重分数后将所有对应的vi和得分进行加权求和得到最终结果,送入到第三个block,即全连接层。

总结

以上就是对于本次学习的整个过程,在自然语言处理里transformer网络使用较为普遍,所以在此记录一下,以供日后学习和复习,存在问题的话记得留言指出。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021/04/18 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
​中科大 & 腾讯微信 & 新加坡国立大学 & 复旦等 将视觉特征与 LLM 的参数空间对齐,LoRA 再升级, 效率更上一层!
大型语言模型(LLM)在大多数自然语言任务上取得了令人鼓舞的性能,并在解决现实世界问题中展现出了强大的泛化能力。从LLM派生出的多模态大型语言模型(MLLM)通过感知现实世界的视觉信息,向人工通用智能(AGI)迈出了一步。因此,感知视觉信息的方式是从LLM向MLLM转变的关键。
AIGC 先锋科技
2024/07/08
4540
​中科大 & 腾讯微信 & 新加坡国立大学 & 复旦等 将视觉特征与 LLM 的参数空间对齐,LoRA 再升级, 效率更上一层!
FastChat——一个用于训练、部署和评估基于大型语言模型的聊天机器人的开放平台
在AI盛起的当下,各类AI应用不断地出现在人们的视野中,AI正在重塑着各行各业。相信现在各大公司都在进行着不同程度的AI布局,有AI大模型自研能力的公司毕竟是少数,对于大部分公司来说,在一款开源可商用的大模型基础上进行行业数据微调也正在成为一种不错的选择。
山行AI
2023/06/26
37.6K0
FastChat——一个用于训练、部署和评估基于大型语言模型的聊天机器人的开放平台
正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完
9月底,OpenAI宣布ChatGPT多模态能力解禁。多模态GPT-4V的神奇能力让众人惊呼:这就是GPT-4.5吧?
新智元
2023/10/08
3.7K0
正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完
​浅析多模态大模型的前世今生
前段时间 ChatGPT 进行了一轮重大更新:多模态上线,能说话,会看图!微软发了一篇长达 166 页的 GPT-4V 测评论文,一时间又带起了一阵多模态的热议,随后像是 LLaVA-1.5、CogVLM、MiniGPT-5 等研究工作紧随其后,到处刷屏。大模型的多模态能力到底是怎么来的?今天来分享一下多模态相关的一些工作和个人的理解。
腾讯技术工程官方号
2023/11/01
4.4K0
​浅析多模态大模型的前世今生
Xmodel-VLM | 多模态视觉语言模型,解决高成本难题,实现高效部署 !
近年来,自然语言处理(NLP)与计算机视觉的结合在多模态学习领域引发了重大创新和突破。特别是,如GPT-4V [30] 和 Gemini [39]等先进的视觉语言模型(VLMs)利用文本与视觉数据的协同作用,实现了对世界的先进理解和交互。凭借其强大的能力,它们在各种下游视觉语言任务中表现出色。
AIGC 先锋科技
2024/07/08
5200
Xmodel-VLM | 多模态视觉语言模型,解决高成本难题,实现高效部署 !
赶超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太强了
去年 4 月,威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学研究者共同发布了 LLaVA(Large Language and Vision Assistant)。尽管 LLaVA 是用一个小的多模态指令数据集训练的,却在一些样本上展示了与 GPT-4 非常相似的推理结果。10 月,LLaVA-1.5 重磅发布,通过对原始 LLaVA 的简单修改,在 11 个基准上刷新了 SOTA。
机器之心
2024/02/06
8750
赶超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太强了
MMFuser 用于精细视觉-语言理解的多模态多层特征融合器 !
近年来,多模态大型语言模型(MLLMs)在人工智能领域(AGI)的研究热点中崭露头角。这些模型通过跨模态互动和学习在理解和表达复杂人类意图方面取得了重要进展。在大型语言模型(LLMs)快速发展的基础上,MLLMs利用预训练的视觉编码器来提取图像特征,并将其与先进的LLMs相结合,展示了在各种视觉语言任务上的显著能力。
AIGC 先锋科技
2024/12/03
4070
MMFuser 用于精细视觉-语言理解的多模态多层特征融合器 !
【论文解读】LLaVA 多模态大模型,微软首创用GPT-4生成多模态指令数据集进行指令微调
在本文中,我们首次尝试使用仅基于语言的GPT-4生成多模态语言-图像指令跟随(instruction following)数据。通过对这些生成数据进行指令调整,我们介绍了LLaVA:Large Language and Vision Assistant,这是一个端到端训练的大型多模态模型,将视觉编码器与LLM连接起来,用于通用目的的视觉和自然语言理解。
唐国梁Tommy
2023/09/01
3.3K0
【论文解读】LLaVA 多模态大模型,微软首创用GPT-4生成多模态指令数据集进行指令微调
开源大语言模型LLMs汇总
大语言模型(LLM)是指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务,如文本分类、问答、对话等,是通向人工智能的一条重要途径。
机器学习AI算法工程
2023/09/04
2.6K0
开源大语言模型LLMs汇总
多模态推理革命!LLaVA-vLLM联合部署实战​​
​随着大语言模型(LLM)在生成式AI产业中广泛应用,如何高效、经济地部署和推理这些庞大的模型,成为每一位开发者和企业面临的核心挑战。尤其是在构建真实的在线AI应用时,性能瓶颈、资源浪费、高昂费用等问题层出不穷。
聚客AI
2025/08/14
6300
多模态推理革命!LLaVA-vLLM联合部署实战​​
高效轻量级LLM | Imp模型,通过低比特量化分辨率和降低实现高通骁龙8Gen3 芯片高性能部署 !
4B规模下能力极高的LMMs。 值得注意的是,作者的Imp-3B模型在所有现有相似规模的轻量级LMMs中表现稳定地超越,甚至超过了13B规模下的最先进LMMs。 通过低比特量化技术和分辨率降低技术,作者的Imp模型可以部署在高通骁龙8Gen3移动芯片上,具有高达约13个 Token /秒的高推理速度。
AIGC 先锋科技
2024/07/08
4320
高效轻量级LLM | Imp模型,通过低比特量化分辨率和降低实现高通骁龙8Gen3 芯片高性能部署 !
小算力LVLMs,gpt4平替
LVLMs是干什么的?其实非常好理解,简单来说就是GPT4o干的事情,输入一张图片和一句话,LVLMs会给出一个回答。GPT4目前是闭源的,目前开源的做法都是想法了接近gpt4的性能。而对于研究人员而言,没有强大的算力的支持,也只能在一些小规模的LVLMs上寻找一些方法上的创新。下面将介绍一种MOE-LLaVA的方法。
Srlua
2025/01/02
1530
小算力LVLMs,gpt4平替
7B模型超越GPT4-V!港科大等发布「图推理问答」数据集GITQA:视觉图可提升推理能力
图神经网络(GNNs)擅长利用图的结构信息进行推理,但它们通常需要特定于领域的调优才能达到峰值性能,这阻碍了它们在不同任务之间的泛化性。
新智元
2024/03/05
3040
7B模型超越GPT4-V!港科大等发布「图推理问答」数据集GITQA:视觉图可提升推理能力
《书生大模型实战营第3期》进阶岛 第4关: InternVL 多模态模型部署微调实践
InternVL 是一种用于多模态任务的深度学习模型,旨在处理和理解多种类型的数据输入,如图像和文本。它结合了视觉和语言模型,能够执行复杂的跨模态任务,比如图文匹配、图像描述生成等。通过整合视觉特征和语言信息,InternVL 可以在多模态领域取得更好的表现
流川疯
2024/08/24
1.2K0
《书生大模型实战营第3期》进阶岛 第4关: InternVL 多模态模型部署微调实践
细粒度视觉处理,MG-LLaVA 多模态大型语言模型,从3.8B到34B,物体识别能力大幅提升 !
多模态大型语言模型(MLLMs)在视觉语言理解、视觉推理、视觉交互和定位方面取得了迅速发展。大多数MLLMs采用预训练的大型语言模型(LLMs)作为基础架构来处理连接的视觉和语言嵌入。以LLaVA [3]作为代表作品,它采用低分辨率(, 等)图像作为输入,并通过MLP投影器将视觉嵌入与文本模态对齐,然后进行指令调整。LLaVA的架构已被后续工作广泛采用,并已应用于各种视觉任务,包括检测、分割和视频理解。
AIGC 先锋科技
2024/07/08
7930
细粒度视觉处理,MG-LLaVA 多模态大型语言模型,从3.8B到34B,物体识别能力大幅提升 !
熔岩羊驼LLaVA来了:像GPT-4一样可以看图聊天,无需邀请码,在线可玩
机器之心报道 编辑:赵阳 尽管 LLaVA 是用一个小的多模态指令数据集训练的,但它在一些示例上展示了与多模态模型 GPT-4 非常相似的推理结果。 GPT-4 的识图能力什么时候能上线呢?这个问题目前依然没有答案。 但研究社区已经等不及了,纷纷自己上手 DIY,其中最火的是一个名为 MiniGPT-4 的项目。MiniGPT-4 展示了许多类似于 GPT-4 的能力,例如生成详细的图像描述并从手写草稿创建网站。此外,作者还观察到 MiniGPT-4 的其他新兴能力,包括根据给定的图像创作故事和诗歌,提供
机器之心
2023/05/01
3120
熔岩羊驼LLaVA来了:像GPT-4一样可以看图聊天,无需邀请码,在线可玩
中山大学 & 华为诺亚实验室提出 HiRes-LLaVA 框架,解决切片的高分辨率LVLM引起的输入碎片化问题 !
近期在大型视觉-语言模型(LVLMs)方面的进展显著提高了视觉-语言任务的能力,促进了理解、推理和交互的改进。早期的LVLMs[34; 82; 44]以低分辨率处理图像,通常是,这限制了它们捕捉详细视觉信息的能力。这种局限性常常导致对图像中物体及其上下文关系的识别不准确[17; 41]。
AIGC 先锋科技
2024/07/31
4920
中山大学 & 华为诺亚实验室提出 HiRes-LLaVA 框架,解决切片的高分辨率LVLM引起的输入碎片化问题 !
打造自己的AIGC应用(一)入门篇
其实细数AI的发展历程非常之久,而让AI的应用一下子出现在人们眼前的其实就是ChatGPT的出现,这意味着AIGC应用已经从概念为王变的非常实用了。伴随着ChatGPT的出现,大量的开源大模型也如雨后春笋一样出现。就现在而言,打造一个自己的AIGC应用已经非常简单了。
LoRexxar
2023/10/17
4.8K1
打造自己的AIGC应用(一)入门篇
多模态GPT:国内发布一款可以在线使用的多模态聊天机器人!快来把玩~
论文: MultiModal-GPT: A Vision and Language Model for Dialogue with Humans 代码: https://github.com/open-mmlab/Multimodal-GPT (包含代码、数据、demo) 作者:OpenMMLab
zenRRan
2023/08/22
6280
多模态GPT:国内发布一款可以在线使用的多模态聊天机器人!快来把玩~
视觉的跨界 Wiki-LLaVA | lmage + Question 的奇妙反应,生成多模态大型语言模型(MLLMs)!
近期,大型语言模型(LLM)在零样本文本任务中展现了令人印象深刻的性能。特别是,近期的研究设计出了能够根据用户指示处理多样任务的模型[6, 30, 41]。在这个背景下,经典的方法是在多种通过自然语言描述的任务上微调模型[7, 34],从而使模型能够吸收外部提供的指示,并促进在多个领域内的强大泛化能力。 在这些进展之后,计算机视觉界开始研究将这些模型扩展到视觉和语言的情境中,从而生成多模态大型语言模型(MLLMs)。在这方面,通过视觉到语言的 Adapter 将视觉特征融合到LLM的主干中,引起了显著的性能提升,使得对需要精心设计的视觉描述的视觉和语言任务能够广泛泛化。
AIGC 先锋科技
2024/07/08
4980
视觉的跨界 Wiki-LLaVA  |  lmage + Question 的奇妙反应,生成多模态大型语言模型(MLLMs)!
推荐阅读
​中科大 & 腾讯微信 & 新加坡国立大学 & 复旦等 将视觉特征与 LLM 的参数空间对齐,LoRA 再升级, 效率更上一层!
4540
FastChat——一个用于训练、部署和评估基于大型语言模型的聊天机器人的开放平台
37.6K0
正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完
3.7K0
​浅析多模态大模型的前世今生
4.4K0
Xmodel-VLM | 多模态视觉语言模型,解决高成本难题,实现高效部署 !
5200
赶超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太强了
8750
MMFuser 用于精细视觉-语言理解的多模态多层特征融合器 !
4070
【论文解读】LLaVA 多模态大模型,微软首创用GPT-4生成多模态指令数据集进行指令微调
3.3K0
开源大语言模型LLMs汇总
2.6K0
多模态推理革命!LLaVA-vLLM联合部署实战​​
6300
高效轻量级LLM | Imp模型,通过低比特量化分辨率和降低实现高通骁龙8Gen3 芯片高性能部署 !
4320
小算力LVLMs,gpt4平替
1530
7B模型超越GPT4-V!港科大等发布「图推理问答」数据集GITQA:视觉图可提升推理能力
3040
《书生大模型实战营第3期》进阶岛 第4关: InternVL 多模态模型部署微调实践
1.2K0
细粒度视觉处理,MG-LLaVA 多模态大型语言模型,从3.8B到34B,物体识别能力大幅提升 !
7930
熔岩羊驼LLaVA来了:像GPT-4一样可以看图聊天,无需邀请码,在线可玩
3120
中山大学 & 华为诺亚实验室提出 HiRes-LLaVA 框架,解决切片的高分辨率LVLM引起的输入碎片化问题 !
4920
打造自己的AIGC应用(一)入门篇
4.8K1
多模态GPT:国内发布一款可以在线使用的多模态聊天机器人!快来把玩~
6280
视觉的跨界 Wiki-LLaVA | lmage + Question 的奇妙反应,生成多模态大型语言模型(MLLMs)!
4980
相关推荐
​中科大 & 腾讯微信 & 新加坡国立大学 & 复旦等 将视觉特征与 LLM 的参数空间对齐,LoRA 再升级, 效率更上一层!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档