从零开始深入理解梯度下降法

用户2423478

发布于 2025-10-28 13:08:22

180

文章被收录于专栏：具身小站具身小站

梯度下降法是一种用于寻找函数局部最小值的一阶迭代优化算法，核心思想非常直观，通过沿着函数当前点的梯度（即最陡上升方向）的反方向（即最陡下降方向）以小步长迭代更新参数，逐步逼近函数的最小值点。

核心目的： 最小化一个目标函数 J(θ)，其中 θ 是我们要优化的参数向量。

想象一个在浓雾笼罩的山丘上的登山者，目标是找到最近的山谷（最低点），看不清整个地形，只能感受到脚下地面的倾斜程度，策略会环顾四周，感觉到哪个方向是最陡的下坡方向，朝着那个方向走一小步。

重复： 到达新的位置后，你再次感受最陡的下坡方向，再走一小步。

最终： 通过不断重复这个过程，最终会到达一个山谷底部，在这里无论往哪个方向走，地面都是平坦或向上的。

梯度下降法就是这个过程的数学抽象：

第一步：泰勒展开与局部线性近似 假设我们当前在第 k 次迭代，参数为 θk，希望找到一个微小的增量 Δθ，使得函数值减小：J(θk+Δθ)<J(θk)，在 θk 处对函数 J 进行一阶泰勒展开：

目标是让新的函数值 J(θk)+∇J(θk)TΔθ尽可能小。

第二步：寻找最优的更新方向 目标是最小化泰勒展开的近似值，上式J(θk)J(θk) 是固定值，所以最小化问题转化为：

第三步：引入学习率并得到更新公式 确定了方向，步长应该走多大，这就是学习率 αα 的作用，它控制着每一次迭代更新的步长。

因此，参数的更新规则如下，就是梯度下降法最核心的公式：

学习率 α 是梯度下降中最重要的超参数，设置合理能以较快的速度稳定地收敛到局部最小值，在实践中，常常需要通过实验（如学习率网格搜索）来找到一个好的 α 值，或者使用自适应学习率的优化器。

算法流程

参数说明：

过程说明：计算在第 k 步的当前参数 θk处，目标函数 J关于每一个参数的偏导数，并将这些导数值组合成一个向量，这个向量 gk的方向指向函数值 J增长最快的方向，其大小（模长）表示这个方向上的增长率有多陡峭。
θk：这是一个向量，表示在第 k 次迭代时，模型所有参数的当前取值。
J(θk)：是目标函数（或称损失函数）在参数取值为 θk 时的输出结果，是一个标量（单个数字），定量地衡量了模型在当前参数下的“不好”的程度（例如，预测值与真实值之间的总误差）。
∇(Nabla算子)：这是一个微分算子，意思是“对……求梯度”。它要求对目标函数 JJ 关于它的每一个参数 θ1,θ2,...,θn 分别求偏导数。
∇J(θk)：这是函数 J 在点 θk 处的梯度，是一个向量，其每个分量是 J 对某个参数的偏导数在该点的值。

应用场景

线性回归：最小化均方误差（MSE）损失函数。
逻辑回归：最小化交叉熵损失函数。
神经网络：反向传播算法的核心就是梯度下降。通过链式法则计算网络中所有权重的梯度，然后用梯度下降法更新权重。几乎所有现代的深度学习模型（CNN, RNN, Transformer）都是用基于梯度下降的优化器训练的。
优化问题：任何可微目标函数的优化问题，在无法求得解析解时，都可以尝试使用梯度下降法来寻找数值解。

优点：