神经网络的训练是深度学习中的核心问题之一。神经网络的训练过程是指通过输入训练数据,不断调整神经网络的参数,使其输出结果更加接近于实际值的过程。本文将介绍神经网络的训练过程、常见的训练算法以及如何避免过拟合等问题。
我们知道,神经网络模型中,各隐藏层、包括输出层都需要激活函数(Activation Function)。我们比较熟悉的、常用的激活函数也有 ReLU、Sigmoid 等等。但是,对于各个激活函数的选取方法、区别特点还有几点需要特别注意的地方。今天红色石头就和大家一起来总结一下常用激活函数 Sigmoid、tanh、ReLU、Leaky ReLU、ELU、Maxout 的关键知识点。
GPT-3 在小样本学习中表现出卓越的能力,但它需要使用数千个 GPU 进行数周的训练,因此很难重新训练或改进。
上节课我们主要介绍了如何建立一个实用的深度学习神经网络。包括Train/Dev/Test sets的比例选择,Bias和Variance的概念和区别:Bias对应欠拟合,Variance对应过拟合。接着,我们介绍了防止过拟合的两种方法:L2 regularization和Dropout。然后,介绍了如何进行规范化输入,以加快梯度下降速度和精度。然后,我们介绍了梯度消失和梯度爆炸的概念和危害,并提出了如何使用梯度初始化来降低这种风险。最后,我们介绍了梯度检查,来验证梯度下降算法是否正确。
【新智元导读】深度学习的成功,使业内范式开始从特征设计转向架构设计。Google Brain 研究人员使用强化学习,从头开始生成神经网络架构。【论文地址:https://arxiv.org/pdf/1
Uber近期发布了一篇文章,公开了五篇关于深度神经进化的论文,其中包括发现了遗传算法可以解决深层强化学习问题,而一些流行的方法也可替代遗传算法,如深度Q-learning和策略梯度。这项研究是Salimans等人在2017年进行的,另一种神经进化算法,即进化策略(ES)同样可以解决问题。Uber进一步阐述了以下问题:如何通过更多地探索更新智能体所带来的压力形式来改进ES;ES是如何与梯度下降联系起来的。这些研究花费巨大,通常需要720到3000个CPU,并分布在巨大,高性能的计算集群中,因此对于大多数研究人员、学生、公司和业余爱好者来说,深度神经进化研究似乎遥不可及。
人工智能技术的迅速发展使人工智能芯片成为备受关注的关键组成部分。在人工智能的构建中,算力是三个支柱之一,包括数据、算法和算力。目前,人工智能芯片的发展主要集中在两个方向:一方面是采用传统计算架构的AI加速器/计算卡,以GPU、FPGA和ASIC为代表;另一方面则是采用颠覆性的冯诺依曼架构,以存算一体芯片为代表。
选自Uber AI 作者:Felipe Petroski Such、Kenneth O. Stanley、Jeff Clune 机器之心编译 参与:路、李泽南 Uber 在去年底发表的研究中发现,通过使用遗传算法高效演化 DNN,可以训练含有超过 400 万参数的深度卷积网络在像素级别上玩 Atari 游戏;这种方式在许多游戏中比现代深度强化学习算法或进化策略表现得更好,同时由于更好的并行化能达到更快的速度。不过这种方法虽好但当时对于硬件的要求很高,近日 Uber 新的开源项目解决了这一问题,其代码可以让一
Batch normalization是一个用于优化训练神经网络的技巧。具备有以下几个优点 1. 训练的更快 因为在每一轮训练中的前向传播和反响传播的额外计算会造成更慢的训练。Batch normalization可以让收敛速度更快。总的训练时间更短。 2. 容忍更高的学习率(learning rate) 为了网络能收敛,梯度下降通常需要更小的学习率。但是神经网络的层次越深,则反响传播时梯度越来越小,因此需要更多的训练迭代次数。Batch normalization可以容忍更高的学习率,则梯度下降的幅度更大
上节课我们主要介绍了如何建立一个实用的深度学习神经网络。包括Train/Dev/Test sets的比例选择,Bias和Variance的概念和区别:Bias对应欠拟合,Variance对应过拟合。接
当前神经网络层之前的神经网络层的参数变化,引起神经网络每一层输入数据的分布产生了变化,这使得训练一个深度神经网络变得复杂。这样就要求使用更小的学习率,参数初始化也需要更为谨慎的设置。并且由于非线性饱和(注:如sigmoid激活函数的非线性饱和问题),训练一个深度神经网络会非常困难。我们称这个现象为:internal covariate shift。同时利用归一化层输入解决这个问题。我们将归一化层输入作为神经网络的结构,并且对每一个小批量训练数据执行这一操作。Batch Normalization(BN) 能使用更高的学习率,并且不需要过多地注重参数初始化问题。BN 的过程与正则化相似,在某些情况下可以去除Dropout
因为通用计算芯片不能满足神经网络运算需求,越来越多的人转而使用GPU和TPU这类专用硬件加速器,加快神经网络训练的速度。
在自动驾驶等许多重要应用中,数据都是实时动态的,并且包含一些意外情况。为了高效应对实时数据,去年 MIT 的研究者受生物神经元启发设计了一种新型「Liquid」神经网络,其不仅能在训练阶段学习,而且还能持续不断地适应。之所以将这种灵活的算法命名为「Liquid」神经网络,是因为其能像「液体」一样改变其底层的数学方程以持续适应新的输入数据。
去年,麻省理工学院的研究人员宣布,他们已经建立了“液体”神经网络,灵感主要来自小型物种的大脑(文章连接在后面)。它是一种灵活、健壮的机器学习模型,它能够在工作中学习适应不断变化的条件,可以应用于安全且关键的场景,如驾驶和飞行。这些“液体”神经网络的灵活性意味着增强我们与世界之间的连接,可以为时间序列相关的任务提供更好的决策,如大脑/心脏监测、天气预报和股票定价等。
选自Stanford 机器之心编译 参与:路雪、蒋思源 韩松,2017 年斯坦福大学电子工程系博士毕业,师从 NVIDIA 首席科学家 Bill Dally 教授。他的研究也广泛涉足深度学习和计算机体系结构,他提出的 Deep Compression 模型压缩技术曾获得 ICLR'16 最佳论文,ESE 稀疏神经网络推理引擎获得 FPGA'17 最佳论文,对业界影响深远。他的研究成果在 NVIDIA、Google、Facebook 得到广泛应用,博士期间创立了深鉴科技,2018 年将任职 MIT 助理教授
斯坦福大学研究人员已经证明,可以直接在光学芯片上训练人工神经网络。这一重大突破表明光学电路可以执行基于电子的人工神经网络的关键功能,并且可以更便宜,更快速和更节能地执行诸如语音或图像识别之类的复杂任务。
“人工智能前沿讲习班”(AIDL)由中国人工智能学会主办,旨在短时间内集中学习某一领域的基础理论、最新进展和落地方向,并促进产、学、研相关从业人员的相互交流。对于硕士、博士、青年教师、企事业单位相关从业者、预期转行AI领域的爱好者均具有重要的意义。2018年AIDL活动正在筹备,敬请关注公众号获取最新消息。
深度学习(DL)已成为商业智能项目中的通用名词。它属于更广泛的人工智能研究领域,也是机器学习算法的一部分。深度学习可以是监督的、半监督的和非监督的。
新智元报道 来源:arXiv 编译:肖琴、克雷格 【新智元导读】深度学习领域的大牛、多伦多大学计算机科学教授Geoffrey Hinton近年在distillation这一想法做了一些前沿工作。
来源: DeepMind 编译:马文 【新智元导读】DeepMind在最新的一篇论文 Population Based Training of Neural Networks中,提出了一种新的训练神经网络的方法PBT,这是一种异步优化算法,它同时训练和优化一个群体的网络,从而快速地为任务选择最佳的超参数集合和模型。最重要的是,这种方法不会增加计算开销,能够最大限度地提高性能,并且很容易集成到现有的机器学习流程中。DeepMind认为这一方法有很大潜力。 论文下载:https://deepmind.com/d
机器学习是当代最重要的计算机运算发展项目之一。 先进的机器学习技术使得人工智能出现爆炸性的发展,创造出新一波智慧应用和服务项目。 实时语音翻译、自动机器人、通过脸孔分析侦测人类情绪,一眼望过去,这些项目全都可以做得到。 但要做到以上事物,得花费不少运算效能来训练这些崭新应用方式背后精密的深度神经网络,这可是一项大工程,就算速度最快的超级计算机也得花费数天到数周的时间进行训练。 毫不意外地,后来每位顶尖机器学习研究人员和开发人员采用 NVIDIA Tesla 加速运算平台和 Deep Learning 软件开
【新智元导读】深度学习领域的大牛、多伦多大学计算机科学教授Geoffrey Hinton近年在distillation这一想法做了一些前沿工作。今天我们介绍的是Hinton作为作者之一,谷歌大脑、DeepMind等的研究人员提交的distillation的更进一步工作:通过online distillation进行大规模分布式神经网络训练。该工作提出了Codistillation的概念,通过大规模实验,发现codistillation方法提高了准确性并加快了训练速度,并且易于在实践中使用。 论文地址:h
【导语】ICLR 是深度学习领域的顶级会议,素有深度学习顶会 “无冕之王” 之称。今年的 ICLR 大会将于5月6日到5月9日在美国新奥尔良市举行,大会采用 OpenReview 的公开双盲评审机制,共接收了 1578 篇论文:其中 oral 论文 24 篇 (约占 1.5%),poster 论文共 476 篇 (占30.2%)。在这些录用的论文中,深度学习、强化学习和生成对抗网络 GANs 是最热门的三大研究方向。此前,AI 科技大本营已经对 ICLR2019 的论文投稿及接收情况与高分论文进行了报道和解读,大家可以再回顾一下。
上节课我们主要介绍了向量化、矩阵计算的方法和python编程的相关技巧。并以逻辑回归为例,将其算法流程包括梯度下降转换为向量化的形式,从而大大提高了程序运算速度。本节课我们将从浅层神经网络入手,开始真
4月12日,一篇题为“Large-scale neuromorphic optoelectronic computing with a reconfigurable diffractive processing unit”的论文登上Nature子刊《Nature Photonics》。
惯性传感器在航空航天系统中主要用于姿态控制和导航。微机电系统的进步促进了微型惯性传感器的发展,该装置进入了许多新的应用领域,从无人驾驶飞机到人体运动跟踪。在捷联式 IMU 中,角速度、加速度、磁场矢量是在传感器固有的三维坐标系中测量的数据。估计传感器相对于坐标系的方向,速度或位置,需要对相应的传感数据进行捷联式积分和传感数据融合。在传感器融合的研究中,现已提出了许多非线性滤波器方法。但是,当涉及到大范围的不同的动态/静态旋转、平移运动时,由于需要根据情况调整加速度计和陀螺仪融合权重,可达到的精度受到限制。为克服这些局限性,该项研究利用人工神经网络对常规滤波算法的优化和探索。
AI 研习社:近日 Uber AI Lab 开源了一组进化算法代码,它的特点是可以高速(同时也更廉价地)进行进化策略研究。根据介绍,训练神经网络玩 Atari 游戏的时间可以从原来在 720 个 CPU 组成的集群上花费 1 个小时,到现在在一台桌面级电脑上只需要 4 个小时。
CS具有灵活性和数据效率高的优点,但由于其稀疏性和昂贵的重建过程,CS的应用受到限制。
近日 Uber AI Lab 开源了一组进化算法代码,它的特点是可以高速(同时也更廉价地)进行进化策略研究。根据介绍,训练神经网络玩 Atari 游戏的时间可以从原来在 720 个 CPU 组成的集群上花费 1 个小时,到现在在一台桌面级电脑上只需要 4 个小时。
春恋慕阅读西安电子科技大学陈鹏飞的论文 用于大规模图像检索的深度哈希网络研究 李聪的技术博客
机器学习,顾名思义,是机器从数据中总结经验,找出某种规律构建模型,并用它来解决实际问题。而深度学习,是机器学习的一个重要分支和延伸,是包含多隐层的神经网络结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,从而学习到数据本身最关键的特征。
昨天,优步AI Lab开源了深度神经进化的加速代码。其博客上称,哪怕用户只有一台电脑(台式机),用这个代码也能训练出会打雅达利的AI。而且只需要4!小!时!
作者 | Qing He、Thilo Koehler、Antony D’Avirro、Chetan Gupta
很多初学者都会有这样的疑问,训练神经网络到底是什么?怎么进行设计?即使对于已经入门的人,在设计神经网络时也会有很多疑问,例如:什么是良好的学习率?应具有多少个隐藏层?dropout真的有用吗?为什么梯度消失了?
【新智元导读】如何快速简单地训练神经网络?谷歌大脑研究人员研究了CNN的可训练性,提出了一种简单的初始化策略,不需要使用残差连接或批标准化,就能训练10000层的原始CNN。作者表示,他们的这项工作清除了在训练任意深度的原始卷积网络时存在的所有主要的障碍。
电子商务仓库中的拣选机器人需要快速计算各种配置之间有效且平稳的机器人手臂运动。最近的研究中是将抓取力分析与手臂运动规划结合,以计算最佳的手臂平滑运动;然而,数十秒的计算时间支配着运动时间。深度学习的最新研究将神经网络应用于计算这些运动。但是,运算结果缺乏产生符合运动学和动力学运动所需的精度。虽然运算结果不可行,但神经网络计算的运动接近最佳结果。该研究中所提出的方法以近似运动为起点,开始优化,优化运动规划器将近似方法通过几次迭代,优化为切实可行运动。
上节课我们主要介绍了向量化、矩阵计算的方法和python编程的相关技巧。并以逻辑回归为例,将其算法流程包括梯度下降转换为向量化的形式,从而大大提高了程序运算速度。本节课我们将从浅层神经网络入手,开始真正的神经网络模型的学习。
比如育碧公司的新游戏《极限国度》中自行车溅起的泥点、受到滑板冲击改变的雪道和飞溅的雪花、随着角色姿势不断变化的衣服褶皱等逼真细节,都让玩家更能感到身临其境。
今天我们来读一篇来自国信证券研究文章 RNN简介 RNN 不同于传统神经网络的感知机的最大特征就是跟时间挂上钩,即包含了一个循环的网络,就是下一时间的结果不仅受下一时间的输入的影响,也受上一时间输出的影响,进一步地说就是信息具有持久的影响力。放在实际中也很容易理解,人们在看到新的信息的时候产生的看法或者判断,不仅仅是对当前信息的反应,先前的经验、思想的也是参与进去这次信息的推断的。人类的大脑 不是一张白纸,是包含许多先验信息的,即思想的存在性、持久性是显然的。举个例子,你要对某电影中各个时点发生的事件类
想要分析胸部 X 光片吗? 我们有一套神经网络能派上用场。 来自马里兰州贝塞斯达美国国家卫生研究院(NIH)的研究人员,采用深度学习技术发展出一项架构,能从胸部 X 光片里及早发现疾病。接着他们的系统
人工智能正在驱动新一轮的商业变革,而算法技术则是推动核心底层技术的重要力量。算法崛起时代,技术浪潮可谓一日千里,算法工程师也只有不断精进自身技术,才能与时俱进、驭浪前行。近日,奇点云算法工程师三角肌在目标检测算法领域又有新突破。
选自MIT News 作者:Larry Hardesty 机器之心编译 参与:路雪、刘晓坤 近日,MIT 研究人员开发了一种专用芯片,可以提高神经网络计算的速度,比之前的芯片速度提升三到七倍,同时将能耗降低 93% - 96%。这使得在智能手机本地运行神经网络,甚至在家用电器上嵌入神经网络变成可能。相关论文已投中 ISSCC。 人工智能系统近期的进展,如语音或人脸识别都受到神经网络的支持,简单信息处理器深度互联,通过分析大量训练数据来学习执行任务。 但是神经网络规模很大,计算能耗高,因此它们不适合用于手持
最近参加面试时被问到了神经网络优化方面的问题,由于平时没有好好总结,导致直接拉胯。这篇文章对当前神经网络训练中的常见优化方法进行了比较全面的总结,文章的大部分内容均来自邱锡鹏老师的《神经网络与深度学习》[1] ,部分地方加入了自己的理解。整篇文章的思维导图如下:
该文介绍了神经网络的基本原理、发展历程、常见网络结构、超参数调优、训练技巧、模型评估与部署等内容。详细讲解了神经网络在工业界的应用,包括图像识别、语音识别、自然语言处理等领域。同时,文章还对未来神经网络的发展方向进行了探讨,涉及技术路线、可解释性、计算效率等方面。
选自Google Blog 作者: Valentin Bazarevsky、Andrei Tkachenka 机器之心编译 为视频中人物实时替换背景的技术能够催生出很多新类型的应用。谷歌最近提出的机器学习视频分割技术首先被应用在了自家的 YouTube app 上,实现了令人惊艳的效果。同时,由于模型被高度压缩,其在 iPhone 7 这样的移动端设备上也可以达到 100+ FPS 的高帧率。 视频分割是一项广泛使用的技术,电影导演和视频内容创作者可以用该技术将场景中的前景从背景中分离出来,并将两者作为两个
两篇最佳论文分别来自Mila/加拿大蒙特利尔大学、微软蒙特利尔研究院和MIT CSAIL,主题分别集中在NLP深度学习模型和神经网络压缩。
基于模式化稀疏度的剪枝方法能够使深度神经网络在图像识别任务中「看得」更清楚,同时减小了模型尺寸,使模型在移动端「跑得」更快,实现实时推理。
论文地址:https://arxiv.org/pdf/2305.12972.pdf
Course1:神经网络和深度学习,包括: ---- [1] Week1:深度学习概述 [2] Week2:神经网络基础 [3] Week3:浅层神经网络 [4] Week4:深层神经网络 [
领取专属 10元无门槛券
手把手带您无忧上云