
深度神经网络在机器学习中应用时面临两类主要问题:优化问题和泛化问题。
目前,研究人员通过大量实践总结了一些经验方法,以在神经网络的表示能力、复杂度、学习效率和泛化能力之间取得良好的平衡,从而得到良好的网络模型。本系列文章将从网络优化和网络正则化两个方面来介绍如下方法:
本文将介绍使用动量优化的随机梯度下降算法(Stochastic Gradient Descent with Momentum)
本系列实验使用了PyTorch深度学习框架,相关操作如下:
conda create -n DL python=3.7 conda activate DLpip install torch==1.8.1+cu102 torchvision==0.9.1+cu102 torchaudio==0.8.1 -f https://download.pytorch.org/whl/torch_stable.htmlconda install matplotlib conda install scikit-learn软件包 | 本实验版本 | 目前最新版 |
|---|---|---|
matplotlib | 3.5.3 | 3.8.0 |
numpy | 1.21.6 | 1.26.0 |
python | 3.7.16 | |
scikit-learn | 0.22.1 | 1.3.0 |
torch | 1.8.1+cu102 | 2.0.1 |
torchaudio | 0.8.1 | 2.0.2 |
torchvision | 0.9.1+cu102 | 0.15.2 |
import torch
import torch.nn.functional as F
from d2l import torch as d2l
from sklearn.datasets import load_iris
from torch.utils.data import Dataset, DataLoader随机梯度下降(Stochastic Gradient Descent,SGD)是一种常用的优化算法,用于训练深度神经网络。在每次迭代中,SGD通过随机均匀采样一个数据样本的索引,并计算该样本的梯度来更新网络参数。 具体而言,SGD的更新步骤如下:
optimizer = torch.optim.SGD(model.parameters(), lr=0.2)【深度学习实验】前馈神经网络(final):自定义鸢尾花分类前馈神经网络模型并进行训练及评价
传统的SGD在某些情况下可能存在一些问题,例如学习率选择困难和梯度的不稳定性。为了改进这些问题,提出了一些随机梯度下降的改进方法,其中包括学习率的调整和梯度的优化。
动量(Momentum)是模拟物理中的概念.一个物体的动量指的是该物体在它运动方向上保持运动的趋势,是该物体的质量和速度的乘积.动量法(Momentum Method)是用之前积累动量来替代真正的梯度.每次迭代的梯度可以看作加速度。 在第𝑡 次迭代时,计算**负梯度的“加权移动平均”**作为参数的更新方向,

其中𝜌为动量因子,通常设为0.9,𝛼为学习率。 这样,每个参数的实际更新差值取决于最近一段时间内梯度的加权平均值。当某个参数在最近一段时间内的梯度方向不一致时,其真实的参数更新幅度变小;相反,当在最近一段时间内的梯度方向都一致时,其真实的参数更新幅度变大,起到加速作用。一般而言:
从某种角度来说,当前梯度叠加上部分的上次梯度,一定程度上可以近似看作二阶梯度,下面将介绍如何使用动量法训练模型:
def init_momentum_states(feature_dim):
v_w = torch.zeros((feature_dim, 3))
v_b = torch.zeros(3)
return (v_w, v_b) init_momentum_states(feature_dim) 函数用于初始化动量状态:
feature_dim 作为输入,返回一个包含两个张量的元组 (v_w, v_b)。v_w 是一个形状为 (feature_dim, 3) 的全零张量,v_b 是一个长度为 3 的全零张量。def sgd_momentum(params, states, hyperparams):
for p, v in zip(params, states):
with torch.no_grad():
v[:] = hyperparams['momentum'] * v + p.grad
p[:] -= hyperparams['lr'] * v
p.grad.data.zero_() sgd_momentum(params, states, hyperparams) 函数实现了使用动量优化的随机梯度下降算法:
params 是模型的参数张量列表,states 是动量状态的元组 (v_w, v_b),hyperparams 是超参数字典,包含学习率和动量参数。p 和对应的动量状态 v,它执行以下操作: v[:] = hyperparams['momentum'] * v + p.grad:更新动量状态,将当前梯度 p.grad 乘以动量参数 hyperparams['momentum'] 并加到动量状态 v 上。p[:] -= hyperparams['lr'] * v:更新参数 p,将学习率 hyperparams['lr'] 乘以动量 v 得到的梯度,从当前参数 p 中减去。p.grad.data.zero_():清零参数 p 的梯度。def evaluate_loss(net, data_iter, loss):
"""评估给定数据集上模型的损失
Defined in :numref:`sec_model_selection`"""
metric = d2l.Accumulator(2) # 损失的总和,样本数量
for X, y in data_iter:
X = X.to(torch.float32)
out = net(X)
# y = d2l.reshape(y, out.shape)
l = loss(out, y.long())
metric.add(d2l.reduce_sum(l), d2l.size(l))
return metric[0] / metric[1] evaluate_loss函数用于在给定数据集上评估模型的损失。
net、一个数据迭代器 data_iter 和一个损失函数 loss 作为输入。def train(trainer_fn, states, hyperparams, data_iter, feature_dim, num_epochs=2):
"""Defined in :numref:`sec_minibatches`"""
# 初始化模型
w = torch.normal(mean=0.0, std=0.01, size=(feature_dim, 3),
requires_grad=True)
b = torch.zeros((3), requires_grad=True)
# 训练模型
animator = d2l.Animator(xlabel='epoch', ylabel='loss',
xlim=[0, num_epochs], ylim=[0.9, 1.1])
n, timer = 0, d2l.Timer()
# 这是一个单层线性层
net = lambda X: d2l.linreg(X, w, b)
loss = F.cross_entropy
for _ in range(num_epochs):
for X, y in data_iter:
X = X.to(torch.float32)
l = loss(net(X), y.long()).mean()
l.backward()
trainer_fn([w, b], states, hyperparams)
n += X.shape[0]
if n % 48 == 0:
timer.stop()
animator.add(n / X.shape[0] / len(data_iter),
(evaluate_loss(net, data_iter, loss),))
timer.start()
print(f'loss: {animator.Y[0][-1]:.3f}, {timer.avg():.3f} sec/epoch')
return timer.cumsum(), animator.Y[0]trainer_fn、状态列表 states、超参数字典 hyperparams、数据迭代器 data_iter、输入特征维度 feature_dim 和训练的总轮数 num_epochs(默认为2)。w 和 b,然后使用训练数据迭代器进行训练。 l。trainer_fn 函数来更新参数。 trainer_fn 函数接受参数列表 [w, b]、状态列表 states 和超参数字典 hyperparams,用于更新模型的参数。n,并根据一定条件计算并绘制损失值的动画图。batch_size = 24
train_dataset = IrisDataset(mode='train')
train_loader = DataLoader(train_dataset, batch_size=batch_size,shuffle=True)
lr = 0.02
momentum = 0.9
train(sgd_momentum, init_momentum_states(4), {'lr': lr, 'momentum': momentum}, train_loader, 4, num_epochs=100)batch_size;train_dataset; DataLoader 创建一个训练数据迭代器 train_loader,用于按批次加载训练数据;lr 和动量 momentum 超参数;train 函数进行模型训练。 sgd_momentum、初始化的动量状态 init_momentum_states(4)、超参数字典 {'lr': lr, 'momentum': momentum}、训练数据迭代器 train_loader、特征维度 4 和训练的总轮数 100。
# 导入需要的工具包
import torch
import torch.nn.functional as F
from d2l import torch as d2l
from sklearn.datasets import load_iris
from torch.utils.data import Dataset, DataLoader
def evaluate_loss(net, data_iter, loss):
"""评估给定数据集上模型的损失
Defined in :numref:`sec_model_selection`"""
metric = d2l.Accumulator(2) # 损失的总和,样本数量
for X, y in data_iter:
X = X.to(torch.float32)
out = net(X)
# y = d2l.reshape(y, out.shape)
l = loss(out, y.long())
metric.add(d2l.reduce_sum(l), d2l.size(l))
return metric[0] / metric[1]
def train(trainer_fn, states, hyperparams, data_iter, feature_dim, num_epochs=2):
"""Defined in :numref:`sec_minibatches`"""
# 初始化模型
w = torch.normal(mean=0.0, std=0.01, size=(feature_dim, 3),
requires_grad=True)
b = torch.zeros((3), requires_grad=True)
# 训练模型
animator = d2l.Animator(xlabel='epoch', ylabel='loss',
xlim=[0, num_epochs], ylim=[0.9, 1.1])
n, timer = 0, d2l.Timer()
# 这是一个单层线性层
net = lambda X: d2l.linreg(X, w, b)
loss = F.cross_entropy
for _ in range(num_epochs):
for X, y in data_iter:
X = X.to(torch.float32)
l = loss(net(X), y.long()).mean()
l.backward()
trainer_fn([w, b], states, hyperparams)
n += X.shape[0]
if n % 48 == 0:
timer.stop()
animator.add(n / X.shape[0] / len(data_iter),
(evaluate_loss(net, data_iter, loss),))
timer.start()
print(f'loss: {animator.Y[0][-1]:.3f}, {timer.avg():.3f} sec/epoch')
return timer.cumsum(), animator.Y[0]
def load_data(shuffle=True):
x = torch.tensor(load_iris().data)
y = torch.tensor(load_iris().target)
# 数据归一化
x_min = torch.min(x, dim=0).values
x_max = torch.max(x, dim=0).values
x = (x - x_min) / (x_max - x_min)
if shuffle:
idx = torch.randperm(x.shape[0])
x = x[idx]
y = y[idx]
return x, y
class IrisDataset(Dataset):
def __init__(self, mode='train', num_train=120, num_dev=15):
super(IrisDataset, self).__init__()
x, y = load_data(shuffle=True)
if mode == 'train':
self.x, self.y = x[:num_train], y[:num_train]
elif mode == 'dev':
self.x, self.y = x[num_train:num_train + num_dev], y[num_train:num_train + num_dev]
else:
self.x, self.y = x[num_train + num_dev:], y[num_train + num_dev:]
def __getitem__(self, idx):
return self.x[idx], self.y[idx]
def __len__(self):
return len(self.x)
def init_momentum_states(feature_dim):
v_w = torch.zeros((feature_dim, 3))
v_b = torch.zeros(3)
return (v_w, v_b)
def sgd_momentum(params, states, hyperparams):
for p, v in zip(params, states):
with torch.no_grad():
v[:] = hyperparams['momentum'] * v + p.grad
p[:] -= hyperparams['lr'] * v
p.grad.data.zero_()
# batch_size = 1
batch_size = 24
# batch_size = 120
# 分别构建训练集、验证集和测试集
train_dataset = IrisDataset(mode='train')
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
lr = 0.02
momentum = 0.9
train(sgd_momentum, init_momentum_states(4), {'lr': lr, 'momentum': momentum}, train_loader, 4, num_epochs=100)