学习率调度算法的强化学习优化

原创

用户11764306

发布于 2025-09-12 11:20:47

1240

在系列研究中，某中心的研究人员通过理论分析和实践验证，开发了可学习的学习率调度程序。研究分为三个阶段：首先在非负矩阵分解（NMF）中推导稳定性保证并开发可学习调度器；随后将该方法扩展至深度神经网络；最终将成果提炼为高效的启发式调度算法GreedyLR。

在ICLR 2023发表的论文中，研究人员分析了随机非负矩阵分解的优化问题。通过随机梯度下降最小化原始矩阵与分解矩阵间的Frobenius范数距离，在假设梯度存在噪声的情况下，确立了学习率的上界以保证稳定性。这一分析揭示了学习率在收敛速度与发散风险间的权衡关系，并表明通过适当初始化和裁剪学习率可确保稳定性。

基于此，研究采用强化学习（RL）框架自动生成学习率调度策略。在NMF任务中，RL生成的调度程序优于步进衰减等启发式方法，证明了元学习调度在简化领域的可行性。

随后，研究将自适应调度范式扩展至深度神经网络。在另一篇ICLR 2023论文中，尽管复杂非凸目标缺乏理论保证，但数据驱动的调度仍改善了手调学习率的效果。RL生成的调度在计算机视觉和自然语言处理任务中减少了训练时间并提升了泛化能力。

为降低计算成本，研究进一步提炼出轻量级调度算法GreedyLR，该算法在PRML会议上获最佳演示奖。GreedyLR根据验证损失的变化动态调整学习率：损失改善时增加学习率，恶化时降低。其核心特性包括：