我是在自学。我完全理解为什么神经网络的深度会影响学习,以及它与它的宽度有什么不同。但我正在寻找一些关于这方面的理论依据。我可以想出的文件,例如神经网络中深度的好处或前馈神经网络的深度幂,不幸的是太深太长了。我也不是超级擅长数学,然而,我相信背后一定有一个简单,简短和紧凑的数学。有人能告诉我一些教程/文章/论文/报告,在那里我可以很容易地理解它吗?
发布于 2018-10-14 17:19:52
我认为简短的数学直觉是为了表明更深层次提供了更多的灵活性。
想象一下,我们想要适应一个极其复杂的函数,如下所示:

..。但在n维空间中,我们显然无法想象这样的功能。但我们可以同意这是很复杂的
神经网络的目标是通过逼近复杂的函数将原始输入数据(例如图像到卷积网络)映射到某些输出。
因此,如果我们有一些输入,并将一个非线性函数f应用到它,我们将它转换成其他的东西:
也许这给了我们一个曲线函数,但它并没有接近于复杂的函数,所以我们给模型另一个机会,通过应用第二个非线性函数:
给出第二个函数几乎就像为模型提供了另一个自由度(或灵活性)。
我们继续这样做,直到非线性函数链能够很好地映射出输出空间。也许我们最终会有这样的结果:
在这个框架中,想象每一个非线性函数都是深层网络中的一个层。网络越深,我们应用的功能就越多,我们对输入的塑造和转换也就越多;可能在不同的范围,不同的大小等等。
这应该(以一种非常手动的方式)使您相信,应用更多的函数在最终的输出空间中提供了更多的可能性。因此,更多的层给我们更多的力量来表达越来越复杂的功能。
一个实用的注意事项:我们添加的层次越多,模型就越强大,而且越倾向于:
发布于 2018-10-15 02:41:45
我建议使用Tensorflow游乐场来获得直观的理解。特别是,尝试为螺旋数据集寻找合适的数据集。
据我所知,神经网络的每一层都可以由前几层提供的所有形状组成。第一层(假设sigmoid或tanh激活)只能形成乙状结肠形状。第二层中的每个节点现在可以通过第一层中所有乙状结肠形状的线性组合来形成复杂的形状。第三层中的每个节点都可以从第二层的复杂形状中产生更复杂的形状。等等,诸如此类。
https://datascience.stackexchange.com/questions/39667
复制相似问题