一切的起点源于一个根本性的挑战:计算机无法理解人类语言的丰富内涵,它们的世界由数字和计算构成 。为了让机器能够处理、分析甚至生成语言,我们必须首先将“你好”这样的词语和“天空是蓝色的”这样的句子,翻译成机器能够理解的语言——数学。这一转换过程是整个自然语言处理(NLP)领域,乃至大语言模型(LLM)的基石。
线性代数(Linear Algebra)
正是提供了实现这一翻译的工具和框架的数学分支。它研究向量、矩阵以及它们之间的变换,为我们提供了一种结构化的方式,将抽象的语言概念编码为精确的数字形式,从而让复杂的语言任务转变为可以计算的数学问题。
向量(Vector)是一个有序的数字列表,可以想象成高维空间中的一个带方向的箭头。在大语言模型中,一个单词或一个“词元”(token,可以是单词的一部分或标点符号)就被表示为一个向量,这个向量通常包含数百甚至数千个维度(即数字)。每个维度都可以被看作是捕捉了该词义的某个特定“特征”或“属性”。
它 解决的核心问题 是:如何将一个离散的、孤立的概念(如一个单词)表示在一个连续的、可度量的数学空间中,从而使得词语之间的关系可以被量化。
一个词语的向量就像一个人的DNA档案。这份档案是一长串独特的数字(基因标记),精确地定义了这个人的生物学特征。拥有相似DNA的人在生物学上是亲戚。同样地,在向量空间中,拥有相似向量表示的词语(例如,“猫”和“狗”)在语义上也是相关的。它们的向量在多维空间中的位置会非常接近,这种“距离”的远近,就成了衡量词义相似度的标尺。
矩阵(Matrix)是一个二维的数字网格,由行(rows)和列(columns)组成。在大语言模型中,矩阵的用途无处不在:
一个矩阵就像一张电子表格(Spreadsheet)。每一行可以代表一个数据点(比如一个词向量),每一列可以代表一个特征。这种结构使我们能够对所有数据同时执行批量操作。例如,神经网络中的“权重矩阵”就是一张特殊的电子表格,里面写满了“指令”,告诉模型应该如何处理和转换输入的数据。当输入数据(另一张表格)与这张权重表格进行交互时,模型就完成了一次信息的处理与提炼。
例如,一个句子**“The cat sat”**如果每个词都用一个4维向量表示,那么这个句子就可以被组织成一个3x4的矩阵,其中每一行对应一个词的向量。
张量(Tensor)是向量和矩阵概念的推广,可以理解为一个 n 维的数字数组。从这个角度看:
如果说向量是一条线上的数字,矩阵是一个平面上的网格,那么一个 3阶张量就是一个三维的数字立方体。一个常见的例子是彩色图片:一张图片可以被表示为一个3阶张量,其三个维度分别是图片的高度、宽度和颜色通道(红、绿、蓝)
。在大语言模型中,当我们处理一批(batch)句子时,每个句子是一个由词向量组成的矩阵,那么多句话组成的这个批次就构成了一个3阶张量(批次大小 x 句子长度 x 向量维度)。
想象一下,一个矩阵是你的“原料清单”(输入数据),例如,它列出了制作几种不同蛋糕所需的各种原料用量。另一个矩阵则是“食谱大全”(模型的权重),每一份食谱都详细说明了如何按特定比例混合各种原料。
矩阵乘法就像一个全自动的“食谱搅拌机”。它会系统地将“食谱大全”中的每一份食谱,应用到你的“原料清单”上,精确计算出每种蛋糕的最终成分,从而得到一批全新的“蛋糕成品”(输出数据)。这个过程将原始的、未经加工的原料,转换成了更高级、更有意义的成品。
线性代数在大语言模型中的真正威力,并不仅仅在于它提供了一种存储数字的方式,更在于它定义了一套结构化的信息流动系统。矩阵乘法不仅是一次计算,它是信息从网络的一层流向下层,并在每一步被重塑和提炼的核心机制。一个神经网络的架构,本质上就是一张关于矩阵运算的流程图。
更进一步,我们可以发现一个更为深刻的原理:矩阵和向量在模型中扮演着双重角色,它们既可以是数据(空间中的一个点),也可以是代码(一个转换空间的函数)。这种“代码即数据,数据即代码”的二元性,是理解现代LLM(尤其是其注意力机制)的关键。
从本质上讲,一个大语言模型是一个概率语言模型(Probabilistic Language Model)。它的根本目标是计算一个词语序列(即一个句子)出现的概率,用数学符号表示为P(w1, w2,..., wN)
。在实际应用中,这个能力被用来完成一个更具体的任务:给定一段已经出现的文字,预测下一个最可能出现的词元是什么,即计算条件概率 P(下一个词 | 前面的所有词)
。
如何将“生成文本”这个模糊、开放的任务,转化为一个具体、可量化的数学目标。这个目标就是:为那些符合语法、逻辑和常识的、通顺的句子赋予高概率,而为那些胡言乱语、不合逻辑的句子赋予极低的概率。
例如,模型应该计算出P("天空是蓝色的")
的概率远大于P("蓝色的是天空")
。当用户输入“天空是”时,模型内部会计算词汇表中所有词元作为下一个词的概率,并发现“蓝色的”这个词元的概率最高。
直接计算世界上所有可能句子的概率是不现实的,其组合数量是天文数字。幸运的是,概率论中的链式法则(Chain Rule of Probability)允许我们将这个复杂问题分解为一个可管理的、一步一步的过程。一个序列的联合概率可以被分解为一系列条件概率的乘积:
这个公式的含义是,整个句子的概率等于第一个词出现的概率,乘以在第一个词出现条件下第二个词出现的概率,再乘以在前两个词都出现条件下第三个词出现的概率,以此类推。
模型正是基于这个原理进行自回归(Autoregressive)生成的:它一次预测一个词元,然后将这个新生成的词元添加到输入序列中,作为下一次预测的上下文。
预测一个完整的句子就像是摆放一排多米诺骨牌。整排骨牌成功倒下的概率,等于第一块骨牌倒下的概率,乘以第一块成功推倒第二块的概率,再乘以第二块成功推倒第三块的概率……每一块骨牌倒下的行为都依赖于它前面所有骨牌的状态。链式法则就是这个过程的数学化表达。
早期的 N-gram
模型为了简化计算,做出了一个马尔可夫假设(Markov Assumption),即一个词的出现只依赖于它前面有限的几个(例如 N-1 个)词,而不是整个历史上下文。然而,现代的 Transformer 架构(LLM的基础)的注意力机制,能够真正地回顾并考虑整个输入序列,从而做出更精准的预测。
在训练过程中,模型会根据当前的输入预测下一个词元的概率分布。我们需要一种方法来衡量这个预测的概率分布与“真实答案”(即训练数据中实际出现的下一个词)之间的差距有多大。这个衡量的标尺被称为 损失函数(Loss Function)。对于像预测下一个词这样的分类任务,最常用且最有效的损失函数是交叉熵损失(Cross-Entropy Loss)。
交叉熵损失函数不像一个只会说“对”或“错”的裁判,它更像一位理想的教练。这位教练不仅评估你的答案是否正确,还非常关心你的“自信程度”:
这种机制激励模型不仅要做出正确的预测,还要对自己的预测有恰当的信心。
在图像识别任务中,如果一张图片是猫,模型预测为猫的概率是0.9,狗的概率是0.05,鸟的概率是0.05。那么真实标签是[1, 0, 0](猫),预测是[0.9, 0.05, 0.05]。交叉熵损失会计算这两个分布之间的差异。如果模型将猫的概率预测为0.1,那么损失就会非 常大,促使模型在下一次迭代中调整参数,提高对猫的预测概率。
选择交叉熵作为损失函数并非偶然。它的根源在于信息论,它衡量的是两个概率分布之间的“距离”或“差异”:一个是模型预测的概率分布,另一个是真实的概率分布(真实分布中,正确词的概率为1,其他所有词的概率为0)。交叉熵从信息论的角度量化了用模型的预测来描述真实情况所产生的“意外程度”或“信息编码的低效率”。高损失值意味着模型对正确答案的出现感到非常“惊讶”。
更进一步,交叉熵函数的特定数学形状——对数函数那条陡峭的曲线——直接决定了学习的动态过程。这个函数为优化问题创造了一个“损失地貌”(Loss Landscape),其中,对于非常离谱的错误,地貌上会形成万丈悬崖。这些悬崖提供了极其强大和明确的“信号”(即巨大的梯度),精确地告诉优化算法应该朝哪个方向、以多大的力度进行修正。如果换用一个惩罚不那么严厉的损失函数,损失地貌可能会变得平坦,使得模型在犯下严重错误时难以获得清晰的改进方向。因此,损失函数的选择不仅是在衡量错误,更是在主动地塑造学习问题本身,将其雕刻成一个更容易被优化算法解决的形态。它为学习过程开凿出了深邃的峡谷,引导着模型走向优化。
训练模型的过程,本质上是一个优化问题(Optimization Problem)。其目标是,在庞大的训练数据集上,找到一组能让损失函数(Loss Function)达到最小值的模型参数(即权重和偏置)。
我们可以将损失函数想象成一个广阔无垠、崎岖不平的高维“地貌”(Loss Landscape),上面有高山也有深谷。
梯度下降(Gradient Descent) 是用来在这片“损失地貌”上导航并寻找最低点的核心算法。它的工作原理非常直观:从一个随机的初始位置出发,周而复始地朝着当前位置最陡峭的下坡方向迈出一小步。
这个过程最经典的类比就是一个蒙着眼睛的登山者(或徒步者)想要走到山谷的最低点。
学习率的选择至关重要。如果设置得太小,登山者每步都走得极短,虽然方向正确,但到达谷底需要耗费漫长的时间,训练过程会非常缓慢。如果设置得太大,登山者步子迈得太大,很可能会一步跨过谷底,直接跳到山谷的另一侧,然后在两边来回震荡,永远无法稳定在最低点。
反向传播(Backpropagation,简称 Backprop)是一种高效计算神经网络中所有参数梯度的算法。它通过微积分中的链式法则(Chain Rule),将最终的损失(误差)从网络的输出层开始,逐层“反向”传播回输入层,从而计算出每一层的每一个权重对最终总误差的“贡献度”。
图片来源:https://machinelearningknowledge.ai/wp-content/uploads/2019/10/Backpropagation.gif
对于拥有数亿参数的大模型,如果用最朴素的方法(即逐一微调每个参数,观察损失变化来估算梯度),计算量将是天文数字,完全不可行。反向传播提供了一种极其高效且可扩展的梯度计算方法,是深度学习能够成功的关键技术之一。
想象一下你用乐高积木搭建了一座复杂的城堡(这相当于模型的前向传播,Forward Pass)。搭建完成后,你退后一步审视,发现城堡的塔尖歪了(这就是最终的误差)。你不会把整个城堡推倒重来。相反,你会从问题最表层的地方开始追溯责任:
你将错误的“责任”或“影响”从塔尖开始,一层一层地反向传播下去,直到找到最根本的、需要被修正的那几块积木。反向传播就是这个“追责”过程的数学化身,它精确地计算出每一块“积木”(权重)对最终“塔尖歪斜”(总误差)负有多大的责任。
“蒙眼登山者” 的类比完美地揭示了梯度下降的一个核心特性:它是一个 局部贪心算法。登山者只拥有关于脚下小片区域的局部信息,无法看到全局地貌。这意味着它很容易被困在一个“局部最小值”(Local Minimum)——一个看似是谷底,但实际上只是一个小土坑,旁边还有更深的山谷 。这在早期深度学习研究中曾被视为一个巨大的障碍。然而,后来的研究和实践发现,在LLM所处的超高维度空间中,纯粹的、质量很差的局部最小值非常罕见。更常见的问题是遇到广阔的“平原”(梯度接近于零的区域)或“鞍点”(在某些维度是最小值,在其他维度是最大值的点),这些都会让朴素的梯度下降停滞不前。
而反向传播,其意义远不止于一个微积分的计算技巧。它是一种优美的、用于在复杂分布式系统中进行 信誉分配(Credit Assignment)的算法。它精确地回答了这样一个问题:“对于我们最终看到的总误差,网络中数十亿个权重中的每一个,究竟应该承担多大的责任?”
从输出层反向流动的“误差信号”,其物理意义正是“在某个特定权重上施加一个微小的改动,最终的总损失会发生多大变化”的量度。它是一个分布式的、可并行化的系统,用于确定网络中每个组件的影响力。正是这种高效的信誉分配机制,使得深度网络能够从错误中学习,并构成了整个深度学习革命的基石。它将学习这个抽象概念,转化为了一个具体的、可计算的、信息在网络中反向流动的过程。
在将词语转化为机器可读的数字时,最简单直接的方法是独热编码(One-Hot Encoding)。想象一个词汇表,包含了世界上所有的词语。对于任何一个词,我们都创建一个长度与词汇表大小相等的向量。这个向量中,只有代表该词的位置为1,其余所有位置都为0。
这种方法存在几个致命缺陷:
为了克服这些问题,密集词嵌入(Dense Word Embeddings)应运而生。它不再使用稀疏的0和1向量,而是用一个相对低维(例如几百维)的、充满实数值的密集向量来表示一个词。这些向量是通过神经网络在大量文本上训练学习得到的,其核心思想是让向量本身能够编码词语的语义信息。
Word2Vec
是早期词嵌入技术的里程碑。它的核心思想来源于语言学的一句名言:你可以通过一个词的同伴来了解它。也就是说,经常出现在相似语境中的词语,它们的意义也相近。
Word2Vec
通过训练一个简单的神经网络来实现这个思想,主要有两种模型架构:
Word2Vec
解决的核心问题是 如何让词向量学习到语义关系。当训练完成后,Word2Vec
产出的词向量具有惊人的特性:语义上相近的词,其向量在空间中的距离也相近。例如,“银行”的向量会和“金融”、“货币”等词的向量聚集在一起。
Word2Vec
虽然强大,但它有一个根本性的限制:它为每个词只生成一个固定的、静态的向量,无法处理一词多义的问题。例如,【在我去了河边的银行】和【我去了银行取钱】这两个句子中,银行 的含义截然不同,但 Word2Vec
会给它们完全相同的向量表示。
为了解决这个问题,上下文相关的词嵌入(Contextualized Word Embeddings)模型诞生了,其中最具代表性的是ELMo
和BERT
。
ELMo
的创新之处在于,一个词的嵌入向量不再是固定的,而是由整个句子决定的。它使用一个双向长短期记忆网络(biLSTM)来生成词向量。这意味着同一个词在不同句子中,会因为上下文的不同而拥有不同的向量表示。BERT
将这一思想推向了极致。它基于更强大的Transformer
架构,通过“双向”地同时考虑一个词左右两边的上下文来生成其表示。BERT
的向量是深度语境化的,这意味着它能更好地理解词语在具体语境下的确切含义。例如,BERT
能够为上述两个句子中的“银行”生成两个截然不同的向量,一个偏向“地理位置”,另一个偏向“金融机构”。词嵌入技术的发展历程,不仅仅是模型性能的提升,它也反映了我们对语言本质理解的深化。
这种从静态到动态的演变,使得模型能够捕捉到语言中极其微妙和复杂的现象,为大语言模型的成功奠定了坚实的基础。
想象一下,一个神经网络由许多层组成,每一层都对输入数据进行一次矩阵乘法(线性变换)。如果这些层之间没有任何非线性的处理,那么无论网络有多深,它最终都等同于一个单层的线性模型。这是因为 线性函数的组合仍然是线性函数。例如,如果第一层的操作是
f(x) = ax + b
第二层的操作是
g(y) = cy + d
那么将它们叠加起来得到
g(f(x)) = c(ax + b) + d = (ac)x + (cb + d)
这最终还是一个y = Mx + C
形式的线性方程。一个纯线性的模型只能学习数据中的线性关系,比如画一条直线来分割数据点。然而,现实世界充满了复杂的、非线性的模式,例如识别一张图片中的猫、理解一句讽刺的话或者翻译一段诗歌。这些任务远远超出了线性模型的能力范围。激活函数(Activation Function)的作用,就是在神经网络的各层之间引入非线性(Non-linearity),赋予网络学习和拟合复杂非线性关系的能力。它决定了一个神经元在接收到加权输入后,是否应该被 激活 并向下一层传递信息。
ReLU
(Rectified Linear Unit,修正线性单元)是目前最常用、最基础的激活函数之一。它的规则极其简单:
其数学表达式为:
f(x)=max(0,x)
ReLU
就像一个简单的电路开关。当有正向电流(正输入)通过时,开关闭合,信号顺利通过;当有反向电流或无电流(负输入或零输入)时,开关断开,信号被阻断。
死亡 ReLU 问题:如果一个神经元的权重被更新,导致它接收到的输入恒为负,那么这个神经元将永远输出0。其梯度也将永远为0,导致它无法再通过梯度下降进行任何学习,就像一个“死亡”的神经元。
GeLU
(Gaussian Error Linear Unit,高斯误差线性单元)是现代Transformer
架构(如BERT和GPT系列)中广泛使用的激活函数 44。与ReLU
的“硬”开关不同,GeLU 是一个平滑的、概率性的激活函数。
其数学表达式为:
GELU(x)=x⋅Φ(x)
其中,x
是输入,Φ(x)
是标准正态分布的累积分布函数(CDF)。Φ(x)
表示一个从标准正态分布中随机抽取的变量小于x的概率。
GeLU
的核心思想是,一个神经元的输出不仅取决于输入x
的值,还取决于x
在所有可能输入中的“统计排位”。Φ(x)
可以被看作一个概率性的门控:
x
非常大时,Φ(x)
接近1,所以GELU(x) ≈ x
,表现得像 ReLU
。x
是非常小的负数时,Φ(x)
接近0,所以GELU(x) ≈ 0
,也表现得像 ReLU
。Φ(x)
的值是平滑变化的。这意味着GeLU
不像ReLU
那样在0点有一个突兀的转折,而是提供了一个平滑的过渡 。如果说ReLU
是一个非开即关的“开关”,那么GeLU
更像一个“智能调光器”。它不是简单地切断负向信号,而是根据信号的强度(其在统计分布中的位置)来决定将其“调暗”多少。对于那些只是稍微为负的输入,它仍然允许一小部分信号通过,而不是完全扼杀。
在Transformer
架构出现之前,处理序列数据(如文本)的主流模型是循环神经网络(RNN
)及其变体(如LSTM
和GRU
)。这些模型像人阅读一样,按顺序逐词处理输入。信息通过一个隐藏状态的向量在时间步之间传递,理论上这个向量应该能记住前面所有的内容。
然而,在实践中,RNN
面临着严重的 长距离依赖(Long-Range Dependencies)问题。当句子很长时,模型很难将句末的词与句首的词联系起来。信息在长距离传递过程中会逐渐衰减或失真,就像一个传话游戏,信息传到最后已经面目全非。模型会过度关注最近的输入,而“忘记”了遥远的上下文。
注意力机制(Attention Mechanism
)革命性地解决了长距离依赖问题。它的核心思想是,在为当前词生成下一个表示时,不再依赖于一个逐步传递的、固化的“记忆”,而是为输入序列中的每一个词动态地计算一个“重要性分数”,然后根据这个分数对所有词的信息进行加权求和。
我在整理资料的过程中发现关于 Q, K, V 及其动画效果解释的很多,有兴趣的同学可以自行搜索。
这个过程可以通过一个生动的类比来理解:在图书馆中查找资料。
整个注意力过程如下:
这个新生成的向量,就是当前词经过注意力机制处理后的新表示,它包含了丰富的上下文信息。
数学表示
这个过程可以用一个简洁的公式来概括:
QK^T
:计算Query和Key的点积,得到原始的注意力分数矩阵。√d_k
:一个缩放因子,其中d_k
是Key向量的维度。它的作用是防止点积结果过大,导致Softmax函数进入梯度极小的区域,从而稳定训练过程 49。softmax(...)
:将分数转换为总和为1的注意力权重。...V
:用计算出的权重对Value向量进行加权求和。标准注意力机制(也称点积注意力)虽然强大,但有一个巨大的计算代价。为了计算一个词的注意力,它的Query需要和所有n
个词的Key进行点积。由于句子中的每个词都要做同样的操作,所以总的计算量与序列长度n
的平方成正比,即复杂度为O(n^2)
。
当序列长度n
很小时,这个问题不明显。但当模型需要处理长文档、书籍或高分辨率图像时,n
可以达到数万甚至数百万,n^2
的计算量和内存占用会变得无法承受,这极大地限制了Transformer
处理长上下文的能力。
为了解决这个问题,研究者们提出了各种 高效注意力机制(Efficient Attention Mechanisms)。这些方法的核心思想是,一个词的注意力通常不需要密集地分布在所有其他词上,而只需要关注少数几个关键的词。
(QK^T)V
,其瓶颈在于计算n x n
大小的QK^T
矩阵。线性注意力巧妙地利用矩阵乘法的结合律,将其重新排列为Q(K^T V)
。它首先计算K^T V
(一个d_k x d_v
的小矩阵,与序列长度n
无关),然后再用Q
去乘以这个结果。通过这种方式,它避免了显式地构建巨大的n x n
注意力矩阵,从而将复杂度降低到线性级别O(n)
。注意力机制的出现,标志着序列处理范式的根本性转变。RNN将序列视为一条线,信息只能沿着这条线单向流动。而注意力机制将序列视为一个完全连接的图(Graph),其中每个词(节点)都可以直接与其他任何词建立连接(边)。
这个机制的深刻之处在于,图的连接强度(边的权重,即注意力分数)不是固定的,而是动态的、由数据本身决定的。对于每一个输入,模型都会即时构建一个独特的、加权的“信息路由网络”,来决定信息应该如何在序列内部流动和汇聚。
而从标准注意力到高效注意力的演进,则揭示了AI领域一个反复出现的主题:当一种强大但昂贵的计算能力被发现后(如密集自注意力),紧随其后的必然是一波旨在使其计算上可行的研究浪潮。这些研究往往不仅仅是算法上的近似或优化,它们越来越多地将硬件的特性(如内存访问模式、算术强度)融入到算法设计中,实现算法与硬件的协同优化,从而推动整个领域向前发展。
当一个大语言模型训练完成后,它就具备了预测下一个词元概率分布的能力。但是,如何从这个包含数万个词元及其对应概率的分布中,选择一个词元作为最终的输出呢?这个选择的过程被称为解码(Decoding)或采样(Sampling)。不同的解码策略会极大地影响生成文本的风格,决定了它是更具事实性、连贯性,还是更具创造性和多样性。
k
个最有可能的候选序列(k
被称为“集束宽度”或Beam Width)。在下一步,它会基于这k
个序列,分别扩展出所有可能的下一个词,然后从所有这些新的候选序列中,再次选出总概率最高的k
个。k
个词元筛选出来,形成一个候选池。然后,模型只在这个小得多的候选池中进行随机采样。k
值的选择是一个固定的、生硬的门槛。在某些上下文中,可能只有少数几个词是合理的,但一个固定的k
(比如k=50
)可能会引入不相关的词。而在另一些上下文中,可能有许多合理的选择,但一个过小的k
会限制模型的创造力。k
的词,而是选择一个概率累积和大于或等于阈值p
(例如p=0.9
)的最小词元集合。具体来说,它将所有词元按概率从高到低排序,然后逐个将它们加入候选池,直到池中所有词元的概率之和达到p
。最后,模型在这个动态生成的“核心”(Nucleus)候选池中进行采样。为了清晰地展示这些策略的特点,下表进行了总结:
策略 | 核心思想 | 确定性 | 优点 | 缺点 | 典型用例 |
---|---|---|---|---|---|
贪婪搜索 (Greedy) | 每步都选概率最高的词 | ✅ 是 | 速度快,结果可复现 | 容易重复,内容乏味,可能错过全局最优解 | 事实性问答,关键词提取 |
集束搜索 (Beam Search) | 保留k个最可能的序列 | ✅ 是 | 比贪婪搜索更连贯、流畅 | 仍然缺乏创造性,计算成本更高 | 机器翻译,文本摘要 |
随机采样 (Sampling) | 按概率分布随机抽样 | ❌ 否 | 输出多样,富有创造性 | 高温时可能不连贯,结果不可控 | 诗歌创作,头脑风暴,艺术生成 |
Top-k 采样 | 在前k个高概率词中采样 | ❌ 否 | 平衡了多样性和连贯性,避免了低概率词 | k值固定,不够灵活 | 聊天机器人,文案写作 |
Top-p (核心) 采样 | 在概率和超过p的最小词集中采样 | ❌ 否 | 动态调整候选集,非常灵活,适应性强 | 参数p的解释不如k直观 | 通用目的LLM,目前最主流的策略之一 |
本本系统性地剖析了驱动大语言模型(LLM)从训练到推理全过程的核心数学概念。通过深入浅出的解释和生动的类比,揭示了这些看似抽象的数学工具是如何协同工作,共同构筑起现代人工智能的宏伟大厦。
Word2Vec
到动态语境化的BERT
词嵌入,反映了对语言理解的深化。非线性激活函数(如GeLU)的引入,赋予了网络拟合复杂模式的能力。革命性的注意力机制(Q, K, V)使模型摆脱了序列处理的束缚,能够动态聚焦于关键信息,尽管其二次方复杂度也催生了对稀疏和线性等高效变体的研究。最终,多样的解码策略(从贪婪搜索到核心采样)和温度参数,为在确定性、连贯性和创造性之间进行权衡提供了丰富的工具集。最终的启示是,数学选择即是伦理选择。 解码策略等看似纯技术性的环节,对模型的幻觉、偏见放大和内容同质化等AI安全问题有着直接而深远的影响。这表明,构建一个安全、可靠且公平的AI系统,不仅需要在数据和模型层面进行努力,更需要在算法的每一个数学细节中,审慎地做出权衡与设计。对这些核心数学概念的深刻理解,不仅是技术从业者的必备素养,也是社会各界监督和引导AI技术健康发展的知识基础。