其中 μ 是包含每个单元均值的向量,σ 是包含每个单元标准差的向量。此处的算术 是基于广播向量 μ 和向量 σ 应用于矩阵 H 的每一行。...其中 δ 是个很小的正值,比如 10−8,以强制避免遇到
?
的梯度在 z = 0 处未定义 的问题。至关重要的是,我们反向传播这些操作,计算均值和标准差,并应用它们 于标准化 H。...在测试阶段,μ 和 σ 可以被替换为训练阶段收集的运行均值。这使得模型可以 对单一样本评估,而无需使用定义于整个minibatch的 μ 和 σ。...令人遗憾的是,消除所有的线性关联比标准化各 个独立单元的均值和标准差代价更高,因此迄今batch normalization仍是最实用的方 法。...变量 γ 和 β 是允许新变量有任意均值和标准差的学习参数。乍 一看,这似乎是无用的——为什么我们将均值设为 0,然后又引入参数允许它被重设 为任意值 β?