有没有想过回想Adam、ReLU或YOLO的含义?然后仔细去查看每一个你掌握的深度学习所需的术语?
在Coursera 上深度学习的世界中生存意味着你需要理解众多的技术术语。你不确定AdaGrad,Dropout或Xavier初始化是什么意思?使用本指南作为参考,可以查看它。
本“词典”旨在简要解释吴恩达的deeplearning.ai中Coursera Deep Learning中专业的重要术语。它包含对术语的简短解释,并附有后续文章、图像和原始论文的链接。这篇文章对深度学习初学者和从业者同样有用。
让我们打开深度学习的百科全书。
激活函数——用于创建输入的非线性变转换。输入乘以权重,并添加到偏差项。流行的激活功能包括ReLU、tanh或sigmoid。
来源:https://bit.ly/2GBeocg
Adam优化——可以用来代替随机梯度下降优化方法来迭代调整网络权重。根据发明人的说法,Adam在计算上是高效的,对于大数据集运行良好,并且只需要很少的超参数调整。 Adam使用自适应学习率α,而不是预定义和固定的学习率。 Adam目前是深度学习模型中的默认优化算法。
自适应梯度算法——AdaGrad是一种梯度下降优化算法,为每个参数提供可调整的学习速率。 AdaGrad以较小的步骤调整频繁更新的参数上的参数,而不是更新频率较低的参数。因此,它非常适用于非常稀疏的数据集,例如以适应自然语言处理任务中的词嵌入。论文地址:https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf
平均池化——平均卷积运算的结果。它通常用于缩小输入的大小。平均汇集主要用于较旧的卷积神经网络架构,而最近的架构则支持最大汇集。
AlexNet——有八层CNN架构。这是一个比LeNet更广泛的网络架构,需要更长时间的训练。 AlexNet赢得了2012年ImageNet图像分类挑战。论文地址:https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf
来源:https://goo.gl/BVXbhL
反向传播——用于调整网络权重以减少神经网络损失函数的一般框架。该算法通过网络向后传播,并通过每个激活函数的渐变下降形式调整权重。
反向传播通过网络返回并调整权重
批量梯度下降——常规梯度下降优化算法。为整个训练集执行参数更新。该算法需要在完成参数更新步骤之前计算整个训练集的梯度。因此,批量梯度对于大型训练集来说可能非常缓慢。
批标准化——将神经网络层中的值标准化为介于0和1之间的值。这有助于更快地训练神经网络。
偏差——当模型在训练集上没有达到高精度时发生。它也被称为欠拟合。当模型具有较高的偏差时,它在测试集中通常不会产生高精度。
来源:https://goo.gl/htKsQS
分类——当目标变量属于不同的类时,不是连续变量。图像分类、欺诈检测或自然语言处理是深度学习分类任务的实例。
卷积——将输入与滤波器相乘的数学运算。卷积是卷积神经网络的基础,它在识别图像中的边缘和物体方面非常出色。
成本函数——定义计算出的输出和它应该是什么之间的差异。成本函数是深度神经网络学习的关键要素之一,因为它们构成参数更新的基础。网络将其前向传播的结果与地面实况进行比较,并相应地调整网络权重以最小化成本函数。均方根误差是成本函数的一个简单例子。
深度神经网络——具有许多隐藏层的神经网络,通常超过五个。没有定义深度神经网络必须具有多少层。深度神经网络是机器学习算法的一种强大形式,用于确定信用风险、驾驶自动驾驶汽车并检测宇宙中的新行星。
函数的导数。
来源:https://goo.gl/HqKdeg
微分——微分是特定点上函数的斜率。计算衍生物以使梯度下降算法将权重参数调整为局部最小值。
Dropout ——正则化技术,随机消除深度神经网络中的节点及其连接。Dropout 减少了过度拟合,并加快了对深度神经网络的训练。每个参数更新周期,不同的节点在训练期间被丢弃。这迫使相邻节点避免相互依赖,并自己计算出正确的表示。它还提高了某些分类任务的性能。论文地址:http://jmlr.org/papers/v15/srivastava14a.html。
来源:https://goo.gl/obY4L5
端到端学习——算法能够自行解决整个任务。额外的人工干预,如模型切换或新数据标签,是没有必要的。例如,端到端驱动意味着神经网络仅通过评估图像即可知道如何调整转向命令。
Epoch——每个示例都包含一个前向和后向遍历训练集。单个Epoch在迭代中涉及每个训练示例。
前向传播——深层神经网络中的前向传播。输入通过隐藏层的激活功能,直到最后产生结果。前向传播也用于预测权重经过适当训练后的输入示例结果。
全连接层——全连接层使用其权重转换输入并将结果传递到下一层。该图层可以访问上一层的所有输入或激活。
门控循环单元——门控循环单元(GRU)对给定输入进行多重转换。它主要用于自然语言处理任务。 GRU可以防止RNN中消失的梯度问题,类似于LSTM。与LSTM相反,GRU不使用存储器单元,在达到相似的性能同时计算效率更高。论文地址:https://arxiv.org/abs/1406.1078
来源:https://goo.gl/dUPtdV
Human-Level Performance——一组人类专家的最佳表现。算法可以超过人类的表现。用来比较和改进神经网络的有价值的指标。
超参数——确定您的神经网络的性能。超参数的例子有学习速率、梯度下降的迭代、隐藏层的数量或激活函数。不要与DNN学习的参数或权重混淆。
ImageNet——收集成千上万的图像及其注释类。非常有用的图像分类任务资源。
迭代——向前和向后传递一个神经网络的次数,每批都算一次。如果你的训练集有5个批次,训练2个epoch,那么它将运行10次迭代。
梯度下降——帮助神经网络决定如何调整参数以最小化成本函数。反复调整参数直到找到全局最小值。这篇文章包含了不同梯度下降优化方法的全面概述。
来源:https://bit.ly/2JnOeLR
图层——一组用于转换输入的激活函数。神经网络使用多个隐藏层来创建输出。您通常会区分输入层,隐藏层和输出层。
学习速率衰减——一种调整训练期间学习速率的概念。允许灵活的学习速率调整。在深度学习中,学习速率通常随着网络训练时间的延长而衰减。
最大池化——仅选择特定输入区域的最大值。它通常用于卷积神经网络来减小输入的大小。
时间递归神经网络——一种特殊形式的RNN,能够学习输入的上下文。适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。
LSTM单元的输入和输出。来源:https://bit.ly/2GlKyMF
小批量梯度下降——在训练数据的较小子集上运行梯度下降的优化算法。该方法允许并行化,因为不同的工作人员分别遍历不同的小批量。对于每个小批量,计算成本并更新小批量的权重。它是批量和随机梯度下降的有效组合。
来源:https://bit.ly/2Iz7uob
神经网络——一种转换输入的机器学习模型。一个普通的神经网络具有输入、隐藏和输出层。神经网络已成为寻找数据复杂模式的首选工具。
非极大值抑制——算法用作YOLO的一部分。它有助于通过消除识别对象的低置信度的重叠边界框来检测对象的正确边界框。论文地址:https://arxiv.org/abs/1705.02950
来源:HTTPS://bit.ly/2H303sF
递归神经网络——RNN允许神经网络理解语音、文本或音乐中的上下文。 RNN允许信息通过网络循环,从而在早期层和后一层之间保持输入的重要特征。
来源:https://goo.gl/nr7Hf8
ReLU——整流线性单元,是一个简单的线性变换单元,其中如果输入小于零,输出为零,否则输出等于输入。 ReLU是激活功能的选择,因为它允许神经网络训练速度更快,并防止信息丢失。
回归分析——统计学习的形式,其中输出变量是连续的而不是分类值。虽然分类将一个类分配给输入变量,但回归会分配一个具有无限数量可能值(通常是数字)的值。例如房价或客户年龄的预测。
均方根传播——RMSProp是随机梯度下降优化方法的扩展。该算法的特点是每个参数的学习率,但不是整个训练集的学习率。 RMSProp根据先前迭代中参数变化的速度来调整学习速率。在这里阅读论文。
参数——在应用激活功能之前转换输入的DNN的权重。每个图层都有自己的一组参数,通过反向传播来调整参数以最小化损失函数。
神经网络的权重
Softmax - 逻辑回归函数的扩展,用于计算输入属于每个现有类的概率。 Softmax通常用于DNN的最后一层。具有最高概率的类别被选为预测类别。它非常适合具有两个以上输出类的分类任务。
来源:https://bit.ly/2HdWZHL
随机梯度下降(Stochastic Gradient Descent)——一种优化算法,为每个训练样例执行参数更新。该算法通常比分批梯度下降快得多,该分批梯度下降在计算整个训练集的梯度后执行参数更新。
监督学习——深度学习的形式,其中每个输入示例都有一个输出标签。标签用于将DNN的输出与地面实况值进行比较并最小化成本函数。其他形式的深度学习任务是半监督训练和无监督训练。
迁移学习——一种将一个神经网络中的参数用于不同任务而不重新训练整个网络的技术。使用先前训练过的网络的权重并移除输出图层。用您自己的softmax或逻辑层替换最后一层,然后再次训练网络。因为较的通常检测类似的东西,这对其他图像分类任务很有用。
无监督学习——输出类别未知的机器学习形式。 GAN或变分自动编码器用于无监督深度学习任务。
验证集——验证集用于查找深度神经网络的最优超参数。通常,在验证集上对DNN进行不同组合的超参数训练。然后应用性能最好的一组超参数,对测试集进行最终预测。注意平衡验证集,如果有大量数据可用,则训练使用多达99%,验证使用0.5%,测试组使用0.5%。
消失梯度——当训练非常深的神经网络时就出现问题。在反向传播中,权重根据其梯度或导数进行调整。在深度神经网络中,较早层的梯度可能变得如此微小,以致权重根本不会更新。 ReLU激活函数适合解决这个问题,因为它不像其他函数那样压缩输入。论文地址:http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.24.7321
方差——当DNN过度适应训练数据时发生。 DNN无法区分噪声和模式,并模拟训练数据中的每个方差。具有高方差的模型通常不能准确推广到新数据。
矢量——作为输入传递到DNN的激活层的值的组合。
VGG-16——一种流行的CNN网络体系结构。它简化了AlexNet的架构,共有16层。有许多预训练的VGG模型可以通过迁移学习应用于新的使用案例。论文地址:https://arxiv.org/pdf/1409.1556.pdf
Xavier初始化——Xavier初始化指定第一个隐藏层的起始权重,以便输入信号深入神经网络。它根据神经元和输出的数量对权重进行缩放。这样,它可以防止信号在网络中稍后变得太小或太大。
YOLO——是一种识别图像中物体的算法。卷积用于确定物体在图像的一部分中的概率,然后使用非最大抑制和anchor boxe来正确定位对象。论文地址:https://arxiv.org/pdf/1612.08242v1.pdf
希望这本词典能帮助你更深入地理解深度学习中使用的术语。使用Coursera深度学习时快速查找术语和概念时,请将本指南放在方便的位置。
领取专属 10元无门槛券
私享最新 技术干货