首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >大语言模型---什么是注意力机制?LlaMA 中注意力机制的数学定义

大语言模型---什么是注意力机制?LlaMA 中注意力机制的数学定义

原创
作者头像
非那雄胺消费者
发布2024-11-25 10:54:00
发布2024-11-25 10:54:00
6780
举报
文章被收录于专栏:人工智能人工智能

摘要

注意力机制(Attention Mechanism)是一种在深度学习和人工智能中广泛使用的技术,旨在使模型在处理信息时能够重点关注重要的部分,从而提升任务的效率和精度。它最初应用于自然语言处理(NLP),并迅速扩展到计算机视觉(CV)、语音处理等领域。

什么是注意力机制?

注意力机制模仿了人类的注意力分配过程。在面对大量信息时,人类不会对每一部分内容平均分配注意力,而是会优先关注重要的部分。计算机通过注意力机制实现类似的功能,即在处理输入数据时动态地分配更多资源到对当前任务最重要的部分。

例如,在机器翻译中,注意力机制使模型能够聚焦于源句子中与目标词汇最相关的部分,而不是处理整个句子。

LlaMA 中注意力机制的数学定义

LLaMA 的注意力机制采用标准 Transformer 的自注意力结构,其计算公式为:

注意力机制公式

\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^\top}{\sqrt{d}}\right)V

其中:

- Q = XW_Q:查询(Query),通过输入 X 和权重矩阵 W_Q投影生成。

- K = XW_K:键(Key),通过输入 X 和权重矩阵 W_K投影生成。

- V = XW_V:值(Value),通过输入 X和权重矩阵 W_V投影生成。

- W_V \in \mathbb{F}^{dim_{\text{head}}\times dim},dim_{\text{head}}=\frac{dim}{the\ number\ of\ head}

- softmax 是计算注意力分数的归一化函数。

- 值得注意的是,d\frac{hidden\_size}{num\_attention\_heads},也是 Q/K/V 向量的长度。进行这种缩放是为了防止大值在下一步中主导标准化(softmax)。

邀请人:zhangjiqun

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 摘要
  • 什么是注意力机制?
  • LlaMA 中注意力机制的数学定义
    • 注意力机制公式
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档