社区首页 >专栏 >【机器学习】揭开激活函数的神秘面纱

【机器学习】揭开激活函数的神秘面纱

小言从不摸鱼

发布于 2024-09-10 11:56:19

28601

代码可运行

文章被收录于专栏：机器学习入门机器学习入门

运行总次数：1

代码可运行

学习目标 🍀 理解非线性因素 🍀 知道常见激活函数

🍔 什么是激活函数

激活函数（Activation Function）是神经网络中非常关键的组成部分，主要用于在神经网络的节点（或称神经元）上引入非线性因素。这是因为神经网络的基本计算单元是线性加权和，而单纯的线性组合无法模拟现实世界中复杂的非线性关系。通过引入激活函数，神经网络能够学习并模拟各种复杂的映射关系。

🐻 激活函数的主要作用包括：

引入非线性：如前所述，通过激活函数可以为神经网络提供非线性建模能力，使得神经网络能够学习并解决复杂的问题。
控制信息的传递：激活函数通过决定哪些信息能够通过（即函数值非零）或哪些信息被抑制（即函数值为零或接近零），来影响网络的训练过程和输出结果。

🐼 常见的激活函数包括：

Sigmoid函数
Tanh函数
ReLU（Rectified Linear Unit）函数
SoftMax函数

🍔 网络非线性因素的理解

激活函数用于对每层的输出数据进行变换, 进而为整个网络结构结构注入了非线性因素。此时, 神经网络就可以拟合各种曲线。如果不使用激活函数，整个网络虽然看起来复杂，其本质还相当于一种线性模型，如下公式所示:

没有引入非线性因素的网络等价于使用一个线性模型来拟合
通过给网络输出增加激活函数, 实现引入非线性因素, 使得网络模型可以逼近任意函数, 提升网络对复杂问题的拟合能力.

🍔 常见的激活函数

激活函数主要用来向神经网络中加入非线性因素，以解决线性模型表达能力不足的问题，它对神经网络有着极其重要的作用。我们的网络参数在更新时，使用的反向传播算法（BP），这就要求我们的激活函数必须可微。

2.1 sigmoid 激活函数

sigmoid 激活函数的函数图像如下:

从 sigmoid 函数图像可以得到，sigmoid 函数可以将任意的输入映射到 (0, 1) 之间，当输入的值大致在 <-6 或者 >6 时，意味着输入任何值得到的激活值都是差不多的，这样会丢失部分的信息。比如：输入 100 和输出 10000 经过 sigmoid 的激活值几乎都是等于 1 的，但是输入的数据之间相差 100 倍的信息就丢失了。

对于 sigmoid 函数而言，输入值在 [-6, 6] 之间输出值才会有明显差异，输入值在 [-3, 3] 之间才会有比较好的效果。

通过上述导数图像，我们发现导数数值范围是 (0, 0.25)，当输入 <-6 或者 >6 时，sigmoid 激活函数图像的导数接近为 0，此时网络参数将更新极其缓慢，或者无法更新。

一般来说， sigmoid 网络在 5 层之内就会产生梯度消失现象。而且，该激活函数并不是以 0 为中心的，所以在实践中这种激活函数使用的很少。sigmoid函数一般只用于二分类的输出层。

在 PyTorch 中使用 sigmoid 函数的示例代码如下:

import torch
import matplotlib.pyplot as plt
import torch.nn.functional as F


def test():
    _, axes = plt.subplots(1, 2)

    # 函数图像
    x = torch.linspace(-20, 20, 1000)
    y = F.tanh(x)
    axes[0].plot(x, y)
    axes[0].grid()
    axes[0].set_title('Sigmoid 函数图像')

    # 导数图像
    x = torch.linspace(-20, 20, 1000, requires_grad=True)
    torch.sigmoid(x).sum().backward()

    axes[1].plot(x.detach(), x.grad)
    axes[1].grid()
    axes[1].set_title('Sigmoid 导数图像')

    plt.show()


if __name__ == '__main__':
    test()

2.2 tanh 激活函数

Tanh 叫做双曲正切函数，其公式如下：

Tanh 的函数图像、导数图像如下：

由上面的函数图像可以看到，Tanh 函数将输入映射到 (-1, 1) 之间，图像以 0 为中心，在 0 点对称，当输入大概<-3 或者 >3 时将被映射为 -1 或者 1。其导数值范围 (0, 1)，当输入的值大概 <-3 或者 > 3 时，其导数近似 0。

与 Sigmoid 相比，它是以 0 为中心的，使得其收敛速度要比 Sigmoid 快，减少迭代次数。然而，从图中可以看出，Tanh 两侧的导数也为 0，同样会造成梯度消失。

若使用时可在隐藏层使用tanh函数，在输出层使用sigmoid函数。

import torch
import matplotlib.pyplot as plt
import torch.nn.functional as F


def test():

    _, axes = plt.subplots(1, 2)

    # 函数图像
    x = torch.linspace(-20, 20, 1000)
    y = F.tanh(x)
    axes[0].plot(x, y)
    axes[0].grid()
    axes[0].set_title('Tanh 函数图像')

    # 导数图像
    x = torch.linspace(-20, 20, 1000, requires_grad=True)
    F.tanh(x).sum().backward()

    axes[1].plot(x.detach(), x.grad)
    axes[1].grid()
    axes[1].set_title('Tanh 导数图像')

    plt.show()

if __name__ == '__main__':
    test()

2.3 ReLU 激活函数

ReLU 激活函数公式如下：

函数图像如下:

从上述函数图像可知，ReLU 激活函数将小于 0 的值映射为 0，而大于 0 的值则保持不变，它更加重视正信号，而忽略负信号，这种激活函数运算更为简单，能够提高模型的训练效率。

但是，如果我们网络的参数采用随机初始化时，很多参数可能为负数，这就使得输入的正值会被舍去，而输入的负值则会保留，这可能在大部分的情况下并不是我们想要的结果。

ReLU 的导数图像如下:

ReLU是目前最常用的激活函数。从图中可以看到，当x<0时，ReLU导数为0，而当x>0时，则不存在饱和问题。所以，ReLU 能够在x>0时保持梯度不衰减，从而缓解梯度消失问题。然而，随着训练的推进，部分输入会落入小于0区域，导致对应权重无法更新。这种现象被称为“神经元死亡”。

与sigmoid相比，RELU的优势是：

采用sigmoid函数，计算量大（指数运算），反向传播求误差梯度时，求导涉及除法，计算量相对大，而采用Relu激活函数，整个过程的计算量节省很多。 sigmoid函数反向传播时，很容易就会出现梯度消失的情况，从而无法完成深层网络的训练。 Relu会使一部分神经元的输出为0，这样就造成了网络的稀疏性，并且减少了参数的相互依存关系，缓解了过拟合问题的发生。

2.4 SoftMax

softmax用于多分类过程中，它是二分类函数sigmoid在多分类上的推广，目的是将多分类的结果以概率的形式展现出来。

计算方法如下图所示：

Softmax 直白来说就是将网络输出的 logits 通过 softmax 函数，就映射成为(0,1)的值，而这些值的累和为1（满足概率的性质），那么我们将它理解成概率，选取概率最大（也就是值对应最大的）节点，作为我们的预测目标类别。

import torch


if __name__ == '__main__':

    scores = torch.tensor([0.2, 0.02, 0.15, 0.15, 1.3, 0.5, 0.06, 1.1, 0.05, 3.75])
    probabilities = torch.softmax(scores, dim=0)
    print(probabilities)

程序输出结果:

tensor([0.0212, 0.0177, 0.0202, 0.0202, 0.0638, 0.0287, 0.0185, 0.0522, 0.0183,
        0.7392])

🍔 小节

本小节带着同学们了解下常见的激活函数，以及对应的 API 的使用。除了上述的激活函数，还存在很多其他的激活函数，如下图所示:

这么多激活函数, 我们应该如何选择呢?

🍬 对于隐藏层（输入层和输出层之间的都是隐藏层）:

优先选择RELU激活函数
如果ReLu效果不好，那么尝试其他激活，如Leaky ReLu等。
如果你使用了Relu，需要注意一下Dead Relu问题，避免出现大的梯度从而导致过多的神经元死亡。
不要使用sigmoid激活函数，可以尝试使用tanh激活函数

🍬 对于输出层（输出 y 的那一层）：

二分类问题选择sigmoid激活函数
多分类问题选择softmax激活函数
回归问题选择identity激活函数

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2024-09-10，如有侵权请联系 cloudcommunity@tencent.com 删除

网络

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

暂无评论

编辑精选文章

换一批

万字详解高可用架构设计

5756

Go 开发者必备：Protocol Buffers 入门指南

亿级月活的社交 APP，陌陌如何做到 3 分钟定位故障？

3528

60页PPT全解：DeepSeek系列论文技术要点整理

4873

pytorch基础知识-常见激活函数（下）

神经网络

它是由sigmoid表达式变化而来的。是将sigmoid的x轴压缩两倍、y轴增加2倍而来的。

用户6719124

2019/11/17

6120

神经网络的激活函数

模型算法网络神经网络函数

人工神经网络（ Artificial Neural Network，简写为ANN）也简称为神经网络（NN），是一种模仿生物神经网络结构和功能的计算模型。人脑可以看做是一个生物神经网络，由众多的神经元连接而成。各个神经元传递复杂的电信号，树突接收到输入信号，然后对信号进行处理，通过轴突输出信号。

@小森

2024/05/03

2350

【动手学深度学习笔记】之多层感知机（MLP）

神经网络

多层感知机在单层神经网络的基础上引入了一到多个隐藏层(hidden layer)。如图所示的隐藏层一共有5个隐藏单元。由于输入层不涉及计算，因此这个多层感知机的层数为2。如图所示的多层感知机中的隐藏层和输出层都是全连接层。

树枝990

2020/08/20

3.5K0

动手学深度学习(三) 多层感知机

神经网络 pytorch

深度学习主要关注多层模型。在这里，我们将以多层感知机（multilayer perceptron，MLP）为例，介绍多层神经网络的概念。

致Great

2020/02/24

1.2K0

深度学习基础入门篇[四]：激活函数介绍:tanh、sigmoid、ReLU、PReLU、ELU、softplus、softmax、swish等

人工智能机器学习深度学习

深度学习基础入门篇四：激活函数介绍:tanh、sigmoid、ReLU、PReLU、ELU、softplus、softmax、swish等

汀丶人工智能

2023/04/12

17.2K1

pytorch学习笔记（十）：MLP[通俗易懂]

神经网络

多层感知机（multilayer perceptron, MLP) 在单层神经网络的基础上引入了一到多个隐藏层（hidden layer）。隐藏层位于输入层和输出层之间。图3.3展示了一个多层感知机的神经网络图，它含有一个隐藏层，该层中有5个隐藏单元。

全栈程序员站长

2022/07/04

1.7K0

A.深度学习基础入门篇[四]：激活函数介绍:tanh、sigmoid、ReLU、PReLU、ELU、softplus、softmax、swish等

神经网络深度学习函数基础数据

如果不用激活函数，每一层输出都是上层输入的线性函数，无论神经网络有多少层，最终的输出都是输入的线性组合。激活函数给神经元引入了非线性因素，使得神经网络可以任意逼近任何非线性函数。

汀丶人工智能

2023/04/17

1.5K0

A.深度学习基础入门篇[四]：激活函数介绍:tanh、sigmoid、ReLU、PReLU、ELU、softplus、softmax、swish等

神经网络基础--激活函数

函数基础模型网络神经网络

人工神经网络（ Artificial Neural Network，简写为ANN）也简称为神经网络（NN），是一种模仿生物神经网络结构和功能的计算模型。人脑可以看做是一个生物神经网络，由众多的神经元连接而成。各个神经元传递复杂的电信号，树突接收到输入信号，然后对信号进行处理，通过轴突输出信号。下图是生物神经元示意图：

用户10950404

2024/08/06

3100

TensorFlow2.0（7）：4种常用的激活函数

tensorflow 神经网络编程算法 github https

激活函数是深度学习，亦或者说人工神经网络中一个十分重要的组成部分，它可以对神经元的接收信息进行非线性变换，将变换后的信息输出到下一层神经元。激活函数作用方式如下公式所示：

Ai学习的老章

2019/12/23

1.5K0

机器学习（ML）三之多层感知机

神经网络

多层感知机深度学习主要关注多层模型，现在以多层感知机（multilayerperceptron，MLP）为例，介绍多层神经网络的概念。隐藏层多层感知机在单层神经网络的基础上引入了一到多个隐藏层

Java架构师必看

2022/01/11

9190

一文速学-让神经网络不再神秘，一天速学神经网络基础-激活函数（二）

神经网络深度学习卷积神经网络

前一篇文章我们具体讲述了神经网络神经元的基本构造，以及引入了神经网络一些概念性质，有了这些基础我们就能更好的理解每一层神经网络究竟要做什么，如何工作的。

fanstuck

2024/03/11

6061

【深度学习基础】多层感知机 | 多层感知机概述

函数基础模型神经网络深度学习

深度学习 (DL, Deep Learning) 特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上，结合当代大数据和大算力的发展而发展出来的。深度学习最重要的技术特征是具有自动提取特征的能力。神经网络算法、算力和数据是开展深度学习的三要素。深度学习在计算机视觉、自然语言处理、多模态数据分析、科学探索等领域都取得了很多成果。本专栏介绍基于PyTorch的深度学习算法实现。【GitCode】专栏资源保存在我的GitCode仓库：https://gitcode.com/Morse_Chen/PyTorch_deep_learning。

Francek Chen

2025/01/22

5110

激活函数

深度学习

深度学习模型中其它的层都是线性的函数拟合，即便是用很深的网络去拟合，其还是避免不了线性的特性，无法进行非线性建模，而加入非线性激活函数单元，当线性函数的输出层经过非线性激活单元的时候，其输出呈现一种非线性的变化，这样经过多层的拟合，就可以完成对输入的非线性建模操作。同时还可以起到一种特征组合的作用。

Johns

2022/06/22

6250

常用激活函数比较

http https 网络安全神经网络

本文结构：什么是激活函数为什么要用都有什么 sigmoid ，ReLU， softmax 的比较如何选择 ---- 1. 什么是激活函数如下图，在神经元中，输入的 inputs 通过加权，求

杨熹

2018/04/03

1.7K0

python实现之激活函数

神经网络

激活函数（Activation Function），就是在人工神经网络的神经元上运行的函数，负责将神经元的输入映射到输出端。

python与大数据分析

2022/03/11

4640

神经网络中常见的激活函数

神经网络 python 深度学习

深度学习中已经成为了人工智能领域的必备工具，源于人工神经网络的研究，含多个隐藏层的多层感知器就是一种深度学习结构。寻找隐藏层的权重参数和偏置的过程，就是常说的“学习”过程，其遵循的基本原则就是使得网络最终的输出误差最小化。在神经⽹络中，激活函数是必须选择的众多参数之⼀，从而使神经⽹络获得最优的结果和性能。

半吊子全栈工匠

2022/12/03

2K0

入门必看！一文读懂神经网络中的激活函数（二）

数据处理人工智能

看看深度学习之激活函数本篇接着上一篇推文入门《必看！从零开始了解到训练神经网络（一）》，在介绍完神经网络的基本原理和结构之后，继续介绍神经网络中的关键之一 —— 激活函数。树根这一部分会给大家通俗讲一下激活函数的概念，原理以及作用，还有实际应用中各种激活函数的优缺点。因为激活函数本身就是一种数学函数，推文中出现数学公式在所难免，但是树根力求讲得通俗清晰，让初学者都能读懂，轻松入门深度学习。 1 感知机 Percrptron Activation Function 感知机由Rosenblatt于1957年

企鹅号小编

2018/01/31

3.1K0

【专知国庆特刊-PyTorch手把手深度学习教程系列01】一文带你入门优雅的PyTorch

pytorch 深度学习人工智能机器学习

【导读】主题链路知识是我们专知的核心功能之一，为用户提供AI领域系统性的知识学习服务，一站式学习人工智能的知识，包含人工智能（机器学习、自然语言处理、计算机视觉等）、大数据、编程语言、系统架构。使用请访问专知进行主题搜索查看 - 桌面电脑访问www.zhuanzhi.ai, 手机端访问www.zhuanzhi.ai 或关注微信公众号后台回复" 专知"进入专知，搜索主题查看。值国庆佳节，专知特别推出独家特刊-来自中科院自动化所专知小组博士生huaiwen和Jin创作的-PyTorch教程学习系列。 <

WZEARW

2018/04/08

2.2K0

【专知国庆特刊-PyTorch手把手深度学习教程系列01】一文带你入门优雅的PyTorch

深度学习4大激活函数

神经网络深度学习 import 函数网络

如果不用激励函数（其实相当于激励函数是f(x) = x），在这种情况下你每一层输出实际上都是上层输入的线性函数。

皮大大

2023/08/25

4760

深度学习500问——Chapter03：深度学习基础（2）

深度学习函数基础模型搜索

超参数：在机器学习的上下文中，超参数是在开始学习过程之前设置值的参数，而不是通过训练得到的参数数据。通常情况下，需要对超参数进行优化，给学习机选择一组最优超参数，以提高学习的性能和效果。

JOYCE_Leo16

2024/03/19

2050