首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

为什么在0-1回归任务中,sigmoid层比tanh层的结果更差?

在0-1回归任务中,sigmoid层比tanh层的结果更差的原因是由于sigmoid函数和tanh函数的特性不同。

首先,sigmoid函数的输出范围是[0, 1],而tanh函数的输出范围是[-1, 1]。在0-1回归任务中,我们希望模型的输出值尽可能接近0或1。由于sigmoid函数的输出范围在0附近非常平坦,当输入值远离0时,梯度接近于0,导致梯度消失的问题。这会导致模型训练过程中梯度更新缓慢,难以收敛到最优解,造成性能下降。

与之相比,tanh函数的输出范围在0附近变化较大,梯度的变化也较大。这使得模型能够更快地进行梯度更新,有助于加快模型的收敛速度,并且减少梯度消失问题。

因此,在0-1回归任务中,tanh层相对于sigmoid层而言,更适合作为激活函数使用,能够取得更好的性能。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

吴恩达-神经网络和深度学习( 第三周 浅层神经网络:)

###3.4 多个例子向量化 训练样本横向堆叠构成矩阵X m个训练样本 用激活函数来表示这些式子a^[2](i)【i是训练样本i,2指是第二】 一个for循环遍历所有的m训练样本 向量化...,simoid只是其中一个可能选择 为了搭建神经网络,可以选择是选择隐里用哪个激活函数,还有神经网络输出单元用什么激活函数 有一个函数总比sigmoid函数表现好,那就是a=tanh(z)(...双曲正切函数), 函数介于+1和-1之间,意味着激活函数平均值更接近0 但 二分分类是,输出最好用sigmoid,因为y输出介于0-1更合理 不过,sigmoidtanh函数都有一个缺点,如果z非常大...,使用tanhsigmoid激活函数快得多,因为ReUL没有函数斜率接近0时,减慢学习速度学习速度效应 说一下几个激活函数 sigmoid 除非用在二元分类输出,不然绝对不要用,或者几乎从来不会用...Logistic回归是一样,因为两个线性函数组合本身就是线性函数,除非你引用非线性, 只有一个地方可以使用线性激活函数g(z) = z,就是你要机器学习回归问题,所以y是一个实数, 线性激活函数不可能用在隐藏

58940
  • 神经网络中常见激活函数

    寻找隐藏权重参数和偏置过程,就是常说“学习”过程,其遵循基本原则就是使得网络最终输出误差最小化。神经⽹络,激活函数是必须选择众多参数之⼀,从而使神经⽹络获得最优结果和性能。...斜率系数需要在训练前确定,即在训练过程不学习。这种类型激活函数可能遇到稀疏梯度任务很流行,例如训练生成式对抗网络。...tanh系列 tanh Tanh函数,即双曲正切函数,sigmoid函数更受欢迎,能为多层神经网络提供更好性能。 它输出更多地以零为中心,这有助于加速收敛,尤其是训练初期。...如果是回归模型,输出上可以使用线性激活函数。如果是浅层神经网络,如不超过4,可选择使用多种激励函数,没有太大影响。如果网络存在大量未激活神经元,可以考虑leaky ReLU函数。...一句话小结 激活函数是神经网络重要参数,一般地,Sigmoid 系列用于二分类任务输出,softmax系列用于多分类任务输出tanh系列用于模型隐藏,Relu系列用于回归任务以及卷积神经网络隐藏

    1.7K70

    深度学习基础入门篇:激活函数介绍:tanhsigmoid、ReLU、PReLU、ELU、softplus、softmax、swish等

    sigmoid函数收敛速度更快; * 相比 sigmoid函数,tanh是以 0为中心; 缺点: * 与 sigmoid函数相同,由于饱和性容易产生梯度消失; * 与 sigmoid函数相同,由于具有幂运算...通过 Softmax 函数,得到了三个类别分类任务以概率表示更好分类结果,即分别以 95.25%、4.71%和0.04% 归属于类别1、类别2 和类别3。...缺点: 与 relu6相 hard swish计算量仍然较大。 4.激活函数选择 浅层网络分类器时,sigmoid函数及其组合通常效果更好。...5.2 为什么 tanh收敛速度 sigmoid快?...引起梯度消失问题没有 sigmoid严重,所以 tanh收敛速度 sigmoid快。

    5K80

    深度学习笔记总结(1)

    逻辑回归损失函数为: ? 为什么用这个函数作为损失函数? ?...tanh 函数是 sigmoid 向下平移和伸缩后结果。对它进行了变形后,穿过了 (0,0)点,并且值域介于+1 和-1 之间,函数图像也是S形。 但是tanh效果总是优于 sigmoid 函数。...tanh函数主要用于两类之间分类任务。 重点:sigmoid 函数和 tanh 函数两者共同缺点是,?...当x是负值时,这个函数值不是等于 0,而是轻微倾斜,如图。 这个函数通常 Relu 激活函数效果要好,尽管实际 Leaky ReLu 使用并不多 ?...区间变动很大情况下,激活函数导数或者激活函数斜率都会远大于0,程序实现就是一个 if-else 语句,而 sigmoid 函数需要进行浮点四则运算,在实践, 使用 ReLu 激活函数神经网络通常会比使用

    96400

    吾爱NLP(2)--解析深度学习激活函数

    Softmax回归模型是logistic回归模型多分类问题上推广,多分类问题中,待分类类别数量大于2,且类别之间互斥。...比较   具体应用tanh函数相比于Sigmoid函数往往更具有优越性,这主要是因为Sigmoid函数输入处于[-1,1]之间时,函数值变化敏感,一旦接近或者超出区间就失去敏感性,处于饱和状态,...而tanh输出和输入能够保持非线性单调上升和下降关系,符合BP网络梯度求解,容错性好,有界,渐进于0、1,符合人脑神经饱和规律,但sigmoid函数延迟了饱和期。...ReLU是目前深度学习模型应用最火热激活函数之一。 为什么引入Relu呢?...根据前人总结经验: 通常使用tanh激活函数要比sigmoid收敛速度更快; 较深层神经网络,选用relu激活函数能使梯度更好地传播回去,但当使用softmax作为最后一激活函数时,其前一最好不要使用

    85420

    吴恩达深度学习笔记 3.1~3.11 浅层神经网络

    神经网络结构与逻辑回归类似,只是神经网络层数逻辑回归多了一,多出中间一叫隐藏,那么,神经网络计算就相当于多进行一次逻辑回归计算 正向传播过程分成两,第一是输入到隐藏,用上标[1...tanh 函数与sigmoid 函数区别: tanh函数几乎各个方面都比sigmoid函数表现好,因为tanh函数取值范围在[-1,+1]之间,隐藏输出被限定在[-1,+1]之间,可以看成是0...实际应用,应尽量避免使z落在这个区域,使|z|尽可能限定在零值附近,从而提高梯度下降算法运算速度 为了弥补sigmoid函数和tanh函数这个缺陷,就出现了ReLU激活函数。...ReLU激活函数z大于零时梯度始终为1;z小于零时梯度始终为0;z等于零时梯度可以当成1也可以当成0,实际应用并不影响。...最后总结一下,如果是分类问题,输出激活函数一般会选择sigmoid函数。但是隐藏激活函数通常不会选择sigmoid函数,tanh函数表现会比sigmoid函数好一些。

    85920

    你有哪些deep learning(rnn、cnn)调参经验?

    除了 gate 之类地方,需要把输出限制成 0-1 之外,尽量不要用 sigmoid,可以用 tanh 或者 relu 之类激活函数. sigmoid 函数-4到4区间里,才有较大梯度。...于是从那时起我就深刻感受到参数调节深度学习模型训练重要意义。...1.激活函数选择: 常用激活函数有 relu、leaky-relu、sigmoidtanh 等。...对于输出,多分类任务选用 softmax 输出,二分类任务选用 sigmoid 输出,回归任务选用线性输出。...而对于中间隐,则优先选择 relu 激活函数(relu 激活函数可以有效解决 sigmoidtanh 出现梯度弥散问题,多次实验表明它会其他激活函数以更快速度收敛)。

    68220

    为神经网络选择正确激活函数

    当我们使用 sigmoid 函数建立一个多标签分类模型时,其中每个相互包含类都有两个结果。不要将此与多类分类模型混淆。 由于以下缺点,我们通常不在隐藏中使用 sigmoid 函数。...与 sigmoid 函数相比,使用 tanh 函数一个优点是 tanh 函数以零为中心。这使得优化过程更加容易。 tanh 函数梯度 sigmoid 函数梯度更陡。...用法: 目前tanh 函数还被用作 MLP、CNN 和 RNN 隐藏激活函数。 tanh 函数也 RNN 中使用。 我们通常不将 tanh 函数用于 MLP 和 CNN 隐藏。...当训练神经网络模型时,可以作为参考: 神经网络输入节点不需要激活函数,定义输入时无需担心激活函数。 输出激活函数取决于我们要解决问题类型。回归问题中,我们使用线性(恒等)激活函数。... MLP 和 CNN 神经网络模型,ReLU 是隐藏默认激活函数。 RNN 神经网络模型,我们对隐藏使用 sigmoidtanh 函数。tanh 函数具有更好性能。

    1.2K30

    Pytorch_第九篇_神经网络中常用激活函数

    神经网络反向传播过程各个参数w更新方向(是增加还是减少)是可能不同,这是由各层输入值x决定为什么呢?推导详见)。...sigmoid导数类似的性质,导数公式如下: image.png tanh 函数图形如下: image.png tanh 导数图形如下: image.png tanh 优点: 输出区间(-1,1)...ReLU目前仍是最常用activation function,隐藏推荐优先尝试!...但是实际运用,该缺陷影响不是很大。 因为比较难发生,为什么呢?因为这种情况主要有两个原因导致,其一:非常恰巧参数初始化。...其二:学习率设置太大,使得某次参数更新时候,跨步太大,得到了一个原先更差参数。选择已经有一些参数初始化方法以及学习率自动调节算法可以防止出现上述情况。(具体方法笔者暂时还未了解!

    93130

    6 种激活函数核心知识点,请务必掌握!

    我们知道,神经网络模型,各隐藏、包括输出都需要激活函数(Activation Function)。我们比较熟悉、常用激活函数也有 ReLU、Sigmoid 等等。...实际收敛速度较快,大约是 Sigmoid/tanh 6 倍。 Sigmoid 更符合生物学神经激活机制。 下面这张图对比了 ReLU 与 tanh 收敛速度差异性。...数据集是 CIFAR 10,模型是四卷积神经网络。图中,实线代表 ReLU,虚线代表 tanh,ReLU tanh 更快地到达了错误率 0.25 处。...最直观解释就是任意凸函数都可以由分段线性函数以任意精度拟合,而 Maxout 又是取 k 个隐藏节点最大值,这些”隐藏"节点也是线性,所以不同取值范围下,最大值也可以看做是分段线性(上面的公式...5)浅层神经网络,选择使用哪种激励函数影响不大。

    34720

    斯坦福CS231N深度学习与计算机视觉第六弹:神经网络结构与神经元激励函数

    比如说,我们逻辑回归中用到sigmoid函数就是一种激励函数,因为对于求和结果输入,sigmoid函数总会输出一个0-1之间值,我们可以认为这个值表明信号强度、或者神经元被激活和传导信号概率...单个神经元分类作用 以sigmoid函数作为神经元激励函数为例,这个大家可能稍微熟悉一点,毕竟我们逻辑回归部分重点提到了这个非线性函数,把输入值压缩成0-1之间一个概率值。...所以实际应用tanh激励函数还是sigmoid要用多一些。 3.3 ReLU ?...不过有意思是,很多人说,这个结果原因是它是线性,而不像sigmoidtanh一样是非线性。具体收敛速度结果对比如下图,收敛速度大概能快上6倍: ?...优点2:相对于tanhsigmoid激励神经元,求梯度不要简单太多好么!!!毕竟,是线性嘛。。。 缺点1:ReLU单元也有它缺点,训练过程,它其实挺脆弱,有时候甚至会挂掉。

    57660

    CS231n:6 训练神经网络(一)

    神经元 1.1 生物学启发和关联性 神经网络最初受到生物神经系统启发得来,并逐渐脱离生物神经系统,演变成一个工程问题,并在机器学习任务实现了很好结果。不过,我们还是简单地介绍一下生物神经系统。...由于sigmoid函数值域0-1之间,所以这个分类器预测结果取决于神经元输出是否大于0.5。...如果一个隐藏足以近似任何函数,为什么要使用更多使得网络更深呢?答案是,两神经网络是通用近似值,是一个在数学上很可爱但在实际应用较弱且无用事实。...同样,尽管单个隐藏神经网络和更深神经网络表达能力是相同,但是实际上更深网络效果会更好。 此外,通常在实际应用3网络效果2更好,但是更深网络所带来增益就很小了。...比如说,假设我们二维空间中有一个二元分类问题,我们可以训练三个不同网络,每个神经网络都只有一个隐藏,可视化结果如下,此结果可以 ConvNetsJS demo 自己训练得到: 在上图中,我们可以看到

    52920

    第一章3.2-3.11浅层神经网络与激活函数原理

    对于这些矩阵来说横向指标就对应了不同训练样本,从左向右扫时候,就扫过了整个训练集,竖向,竖向指标就对应了单一神经网络里不同节点. 3.6 激活函数 tanh function ?...Angnew NG 几乎不会使用 sigmoid 函数,因为 tanh 函数几乎在任何方面多更加强大,但是对于输出例外,因为二元分类,你可以使用 sigmoid 函数作为输出激活函数.但是对于...3.7 为什么需要非线性激活函数 我们为什么一定要把神经网络计算得到结果经过激活函数输出呢?...,线性隐藏一点用也没有.如果你要计算回归问题,也许可以输出使用线性激活函数.除此以外,几乎没有地方会用到线性激活函数. 3. 8 激活函数导数 sigmoid function 对于 sigmoid...我们一般将 w 和 b 设置为很小随机值,因为方程 z=w*x+b ,如果计算得到 z 值过大,会落在 sigmoid 或者是 tanh 函数平缓地带,这样使用梯度下降法时会非常慢.也会学习非常慢

    39830

    深度学习激活函数完全指南:在数据科学诸多曲线上进行现代之旅

    :输出原始数据或进行融合操作 Tanh回归 +L1/L2正则项 Sigmoid:二分类 + 二元交叉熵。...讨论细节之前,我想强调是,选择ReLU类哪一个函数作为激活函数并没有很充分理由。在实践,人们需要在十几个epochs尝试,看看哪些函数在任务上表现最好。...实验,他们发现这种激活函数非常深网络(30 优于 ReLU 函数。...Tanh:可用于正则化回归问题,其输出在 [-1, 1] 范围内。通常与 L2 损失结合使用。 Sigmoid:用于二分类问题中。将输出压缩到 [0, 1] 范围内。...对于输出,请考虑对非正则化/正则化回归使用线性/tanh激活函数,对二分类/多分类使用 sigmoid/softmax。 很少有一本指南能面面俱到,有些东西总是会被遗漏。

    1.1K10

    神经网络为何非激活函数不可?

    Softmax 逻辑回归模型: softmax 逻辑回归模型是 Sigmoid 函数多分类问题上一种推广形式。...与 Sigmoid 函数相似,它也产生 0-1 范围内值,因此被用作分类模型最后一。 2、双曲正切函数 tanh 如图所示: 相比于 Sigmoid 函数,它仅仅解决了以零为中心这个问题。...五、最新研究涌现值得关注非线性激活函数 1、Swish 函数 Swish 由 Ramachandran 等人在 2017 年提出,定义为 f(x)=x*sigmoid(x)。...2、Hard-Swish 或 H-Swish函数 函数定义如下: 它最大优点是几乎类似于 swish 函数,但计算成本却 swish 更低,因为它用线性类型 ReLU 函数取代了指数类型 sigmoid...六、深层神经网络如何使用这些激活函数? 首先,Tanhsigmoid 函数会引起巨大梯度消失问题,因此一般不推荐使用。 神经网络中一开始尝试引入 ReLU 函数。

    1.5K20

    深度学习知识点盘点(一)

    为什么深度学习会兴起 原因1. 大规模数据集上深度学习性能传统机器学习更好 ?...激活函数 为什么激活函数需要是非线性 因为如果激活函数是线性的话,无论神经网络有多少,它都是计算线性函数,最终结果都是线性,100和10没有任何区别。...,因此实际中使用ReLu激活函数神经网络学习要比sigmoid要快 sigmoidtanh函数导数z很大或者很小时候都会出现梯度消失情况(导数接近0)使得学习变得非常慢,而ReLu就不会有这个问题...但是逻辑回归时候(只有一神经网络)就可以初始化为0,或者将偏置项初始化为0。 神经网络权重初始化策略 将权重随机初始化。比如生成一个随机数,然后乘以0.001。...验证集:用来选择模型(包括选择超参数等等) 每个数据集怎么划分大小 在数据集比较小时候(几万级别),通常做法是:60%训练,20%验证,20%测试 但是数据集比较庞大时候(几百万级别),验证集和测试集总数据就会变得更小

    58010
    领券