©作者 | JermyLu 编辑 paperweekly
学校 | 中国科学院大学
研究方向 | 自然语言处理与芯片验证
众所周知,Tensorflow、Pytorch 这样的深度学习框架能够火起来,与其包含自动微分机制有着密不可分的联系,毕竟早期 Pytorch≈Numpy+AutoGrad,而 AutoGrad 的基础就是自动微分机制。
常见的梯度求解方法包括:数值微分(Numerical Differentiation)、符号微分(Symbolic Differentiation)和自动微分(Automatic Differentiation)。
在数学中,求解梯度 = 求解函数偏导数,而导数是用极限来定义的,如下所示:
其中, 表示参数 的一个很小的变化量,上式是导数的双边定义形式。如果函数 是初等函数,则可使用求导法则得到其导数。如果不能得到函数导数的解析式,则必须使用数值微分方法求解该函数在某个点的导数。
数值微分方法简单,但计算量巨大,而且会造成截断误差(Truncation Error)和舍入误差(Round-off Error)。
当用数值微分方法求解梯度时,需要用极限即无穷过程求解。然而,无穷过程在计算机中是不存在的,计算机需要将无穷过程求解截断为有限过程求解。例如,导数定义中 是一个无穷过程,在实际计算中 (不能等于 0,等于 0 就不存在变化量了),而可能令 ,这就带来了截断误差。
舍入误差是指运算得到的精确值无法被计算机存储,只能以近似值代替产生的差异。例如,当实数 超过了双精度浮点数可以表示的范围之后,计算机无法精确表示 ,而只能以其近似值 代替,就产生了舍入误差。因此,数值微分方法不适用于神经网络梯度反向传播。
符号微分是通过建立符号表达式求解微分的方式,即借助符号表达式和求导公式,推导出目标函数关于自变量的微分表达式,最后代入数值即可得到微分结果。例如,对于表达式 ,其微分表达式 ,然后将具体数值 和 代入,即可得到 。
使用符号微分方法时,必须将目标函数转为一个完整的数学表达式,这个过程中会出现表达式膨胀(Expression Swell)的问题,大大增加系统存储和处理表达式的负担。
例如 ,则
在深层神经网络模型中,神经元数量和参数量极大,完整的损失函数的表达式会非常冗长(比示例复杂的多得多,长的多得多),不易存储和管理;再者,完整写出损失函数的微分表达式也是一项庞大的工作量;最重要的一点,在神经网络的梯度反向传播过程中,只需要微分的(中间)结果值,而不是微分表达式。因此,符号微分方法也不适用于神经网络梯度反向传播。
自动微分是一种“原子化”的符号微分,其将一个复杂的数学运算过程分解为一系列简单的基本算子,如对数函数、三角函数等,然后对这些基本算子进行符号微分得到中间结果,再应用于整个函数。
单变量函数链式法则:
若 是 的函数, 是 的函数, 是 的函数,则 。
多变量函数链式法则:
若 是 的函数, 都是 的函数,则 , 类似。
定义:输入层输出为 ;隐层输出为 ;输出层输出为 ;标签为 ,损失函数使用 范式,即 ;隐层激活函数为 记为 ,输出层激活函数为 记为 。
因此:令 ,则 ;令 ,则 ,为了方便起见,不考虑偏置项。
这个三层神经网络中,参数只包含 和 ,而梯度反传参数更新,更新的就是 和 。因此,梯度计算的目标是 与 。
反向传播是由输出层开始计算梯度,之后逆向传播到每一层网络,直至到达输入层。
输出层发生的计算为 ,即输出层的输入 先经过线性变换右乘 转换为中间状态 ,之后 经过 激活函数变为 。最后, 和 计算得到损失函数值 。
该部分网络的前向计算中,上述过程的计算次序为 ,而反向计算中节点访问次序与之相反。
1. 计算 ,即计算损失函数 关于网络输出结果 的梯度,并将梯度向前传递。
2. 计算 记为 , 即 函数相对于其输入 的梯度,并将梯度向前传递。
3. 得到 之后,下一步的目标是计算 与 。
接下来,我们来分析隐藏层发生的计算 ,其中 分别表示隐藏层的输出、中间结果、输入和参数。该部分网络的前向计算中,上述过程的计算次序为 ,而反向计算中节点访问次序与之相反。
1. 计算 , 已知,而 即 激活函数相对于其输入 的梯度,有 ,即可获得该梯度记为 ,并向前传递。
2. 得到 之后,下一步计算 与 :
综合输出层和隐藏层的反向传播方法,再根据神经网络有向计算图的拓扑结构,逆向访问每一个节点执行上述梯度计算过程即可得到神经网络中任意位置和任意参数的梯度信息。
链式法则+反向传播+有向图拓扑结构,构成了自动微分机制的基础。