前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >深度学习: 如何训练网络

深度学习: 如何训练网络

作者头像
JNingWei
发布2018-09-27 15:19:20
1.5K0
发布2018-09-27 15:19:20
举报
文章被收录于专栏:JNing的专栏

Introduction

目的: 快速 有效拟合

手段: 随机批处理学习率批规范化模型优化算法迁移学习

随机批处理

随机批处理,mini-batch,一种 在模型每轮 (epoch) 训练进行前将训练数据集随机打乱 (shuffle) 的 训练机制。

可以防止 被模型猜到 “出样本顺序”

作用: 防 过拟合

合理的学习率

学习率,learning rate,控制模型的 学习进度

在训练过程中,根据训练轮数,合理设置动态变化的学习率:

  • 刚开始训练时:学习率以 0.01 ~ 0.001 为宜。
  • 一定轮数过后:逐渐减缓。
  • 接近训练结束:学习速率的衰减应该在100倍以上。

Note: 如果是 迁移学习 ,由于模型已在原始数据上收敛,此时应设置较小学习率 (≤10−4≤10−4\leq 10^{-4}) 在新数据上进行 微调

作用: 防止 欠拟合/过拟合/拟合慢

具体见 深度学习: 学习率 (learning rate)

批规范化

批规范化,batch normalization,即著名的BN操作。 对应网络模型中的 BN层 ,一般置于 激活函数 之后,池化层 之前

计算批处理数据的 均值方差,据此对该批数据做 规范化 ,并进行 缩放平移

作用:

  • 缩小输入空间,从而降低调参难度;
  • 防止梯度爆炸/消失,从而加速网络收敛。

影响:

  • 该质优价廉的设计目前几乎成了CNN标配。

具体见 深度学习: Batch Normalization (归一化)

模型优化算法

优化算法 类型 包括 一阶优化法 和 二阶优化法。

一阶优化法较为常见,包括: 随机梯度下降法、基于动量的随机梯度下降法、Nesterov型动量随机下降法、Adagrad法、Adadelta法、RMSProp法、Adam法。

具体见 深度学习: 模型优化算法

迁移学习

在已经预训练好的模型上进行 微调

优势:

  • 高效快捷

目前,大部分的模型训练都是 迁移学习 ,已经很少有人从头开始新训练一个模型了。

具体见 深度学习: 迁移学习 (Transfer Learning)


[1] 解析卷积神经网络—深度学习实践手册

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018年02月03日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Introduction
  • 随机批处理
  • 合理的学习率
  • 批规范化
  • 模型优化算法
  • 迁移学习
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档