神经网络起源的历史
在过去的10年里,由于所谓的深度培训方法,我们已经获得了最好的人工智能系统 - 例如,智能手机上的语音识别或最新的自动谷歌翻译。事实上,深度训练已经成为已知的神经网络的一种新趋势,这种神经网络已经成为时尚并且已经持续了70多年。1994年,Warren McCullough和Walter Pitts在芝加哥大学的两位研究人员首次提出了神经网络。1952年,他们搬到麻省理工学院工作,为第一位认知科学主席奠定基础。
神经网络是神经生物学和计算机科学的主要研究方向之一,直到1969年,根据传说,它们由麻省理工学院的数学家Marvin Minsky和Seymour Papert完成,他们一年后成为新的人工智能实验室麻省理工学院的联合领导人。
这种方法的复兴在20世纪80年代幸存下来,在新世纪的第一个十年中略有消失,并且在第二个版本中回归,在图形芯片及其处理能力的惊人发展的顶峰。
麻省理工学院认知和脑科学教授Tomaso Poggio说:“有一种观点认为,科学中的观念就像病毒的流行病一样。”“显然,有五六种主要的流感病毒株,其中一种返回的令人羡慕的周期为25年。人们会受到感染,获得免疫力,并且在接下来的25年内不会生病。然后出现新一代,准备感染同一株病毒。在科学中,人们爱上了这个想法,它会让每个人都疯狂,然后将它们杀死并获得免疫力 - 他们厌倦了它。想法应该有类似的周期性。”
重要问题
神经网络是计算机学习执行某些任务,分析训练样例时的机器学习方法。通常,这些示例是事先手动标记的。例如,物体识别系统可以吸收数千个汽车,房屋,咖啡杯等的标记图像,然后可以在这些图像中找到始终与某些标签相关的视觉图像。
神经网络通常与人脑进行比较,其中也存在这样的网络,其由数千或数百万个密切相关的简单处理节点组成。大多数现代神经网络被组织成节点层,并且数据仅在一个方向上通过它们。单个节点可以与其下面的层中的多个节点相关联,从中接收数据,以及上面传输数据的层中的多个节点。
对于这些传入链路中的每一个,节点分配一个数字 - “权重”。当网络处于活动状态时,节点会为每个连接接收不同的数据集 - 不同的数字 - 并乘以相应的权重。然后他总结了结果,形成了一个数字。如果此数字低于阈值,则节点不会将数据传输到下一层。如果该数量超过阈值,则通过向所有传出连接发送数字(加权输入数据的总和)来“激活”该节点。
当训练神经网络时,其所有权重和阈值最初以随机顺序设置。训练数据被馈送到下层 - 输入层 - 并通过后续层,以复杂的方式相乘和相加,直到最终它们已经转换到输出层。在训练期间,不断调整权重和阈值,直到具有相同标签的训练数据产生类似的结论。
心灵和机器
McCullough和Pitts在1944年描述的神经网络具有阈值和权重,但它们不是逐层的,科学家没有指定任何特定的训练机制。但麦卡洛和皮茨表明,神经网络原则上可以计算任何功能,就像任何数字计算机一样。结果更多来自神经生物学领域而非计算机科学:有必要假设人类大脑可以被视为计算设备。
神经网络仍然是神经生物学研究的宝贵工具。例如,用于调整权重和阈值的各个网络层或规则再现了人类神经解剖学和认知功能的观察特征,因此触及了大脑如何处理信息。
第一个经过训练的神经网络Perceptron(或Perceptron)于1957年由康奈尔大学心理学家Frank Rosenblatt演示.Perceptron设计类似于现代神经网络,除了它有一层可调节重量和阈值,夹在输入之间和输出图层。
“感知器”在心理学和计算机科学方面得到了积极的研究,直到1959年,当时明斯基和帕佩特出版了一本名为Perceptrons的书,该书表明,对于感知器而言,非常普通的计算产品在时间上是不切实际的。
“当然,如果我们让汽车变得更复杂,所有限制似乎都会消失,”例如,分为两层,“Poggio说。但那时候这本书对神经网络的研究产生了威慑作用。
“这些事情在历史背景下值得考虑,”Poggio说。“该证明是为Lisp等语言编程而构建的。不久之前,人们悄悄地使用了模拟电脑。当时还不完全清楚编程会做什么。我认为他们有点过头了,但是,和往常一样,你不能将所有东西分成黑白两色。如果我们认为这是模拟计算和数字计算之间的匹配,那么他们就会为所需要的而奋斗。”
周期性
然而,到了20世纪80年代,科学家们开发了算法来修改神经网络和阈值的权重,这些算法对于具有多个层的网络足够有效,消除了明斯克和帕普特定义的许多限制。这个地区在文艺复兴时期幸存下来。
但从合理的角度来看,神经网络中缺少一些东西。只要开始以有用的方式对数据进行分类,足够长的培训可能会导致网络设置的修订,但这意味着什么?对象识别器的图像具有什么样的特征,如何将它们收集在一起以形成机器,房屋和咖啡杯的视觉签名?研究单个化合物的重量不会给出这个问题的答案。
近年来,计算机科学家已经开始发明巧妙的方法来确定神经网络采用的分析策略。但在20世纪80年代,这些网络的策略是不可理解的。因此,在世纪之交,神经网络被矢量机取代,这是一种基于纯粹优雅数学的机器学习的替代方法。
最近对神经网络兴趣的激增 - 深度培训的革命 - 受到电脑游戏行业的青睐。复杂的图形组件和现代视频游戏的快节奏需要能够跟上潮流的硬件,从而在单个芯片上形成具有数千个相对简单的处理核心的GPU(图形处理器)。很快,科学家们意识到图形处理器的架构非常适合神经网络。
现代图形处理器使得将20世纪60年代的网络和20世纪80年代的两层和三层网络构建成今天的10层,15层甚至50层网络的花束成为可能。这就是“深度训练”中“深层”这个词的答案。到了网络的深度。目前,深入培训负责几乎所有人工智能研究领域中最有效的系统。
在引擎盖下
网络的不透明性仍然困扰着理论家,但在这方面也取得了进展。Poggio指导研究计划的智力理论基础。不久前,Poggio和他的同事分三部分发表了神经网络的理论研究。
第一部分是上个月在国际自动化与计算杂志上发表的,涉及深度学习网络可以进行的计算范围,以及深度网络优于浅层网络的优势。第二部分和第三部分以报告的形式发布,针对全球优化问题,即确保网络能够找到最适合其培训数据的设置,以及网络理解的情况其学习数据的具体细节如此之好,不能概括相同类别的其他表现形式。
未来仍有许多理论问题,必须给出答案。但是,人们希望神经网络最终能够打破几代人的循环,让他们陷入酷暑,然后变成冷酷。
领取专属 10元无门槛券
私享最新 技术干货