近期,微软亚洲研究院从深度学习基础理论出发,研发并推出了 TorchScale 开源工具包。TorchScale 工具包通过采用 DeepNet、Magneto 和 X-MoE 等最先进的建模技术,可以帮助研究和开发人员提高建模的通用性和整体性能,确保训练模型的稳定性及效率,并允许以不同的模型大小扩展 Transformer 网络。 如今,在包括语音、自然语言处理(NLP)、计算机视觉(CV)、多模态模型和 AI for Science 等领域的研究中,Transformer 已经成为一种通用网络结构,加速
优化算法,尤其是填入的这几个参数无法阻止模型梯度发散,所以决定换个优化算法试试,具体见下文。
近来,Transformer在CV领域各种“搅局”,不断刷新其指标。但ViT存在先天的不足:优化难、依赖大尺度数据、依赖数据增强、超参敏感等等。关于这些因素背后根本原因一直尚未有学者进行探索。今天FAIR的Tete Xiao、Ross Girshick、Piotr Dollar等人对此进行了深入挖掘,找到了其背后的“根因”,也提出了一种Stem设计选择。
为了保证 DRL 算法能够顺利收敛,policy 性能达标并具有实用价值,结果有说服力且能复现,需要算法工作者在训练前、训练中和训练后提供全方位一条龙服务。我记得 GANs 刚火起来的时候,因为训练难度高,有人在 GitHub 上专门开了 repository,总结来自学术界和工业界的最新训练经验,各种经过或未经验证的 tricks 被堆砌在一起,吸引了全世界 AI 爱好者的热烈讨论,可谓盛况空前。在玄学方面,DRL 算法训练有得一拼。但毕竟在科研领域没有人真的喜欢玄学,只有久经考验的一般化规律才能凝结成知识被更多的人接受和推广。本篇接下来的内容融合了许多个人经验和各种参考资料,算是在 DRL 训练 “去玄学” 化上做出的一点微不足道的努力。
基于腾讯公有云25Gbps的VPC网络环境,使用128块V100,借助Light大规模分布式多机多卡训练框架,在2分31秒内训练 ImageNet 28个epoch,TOP5精度达到93%,创造128卡训练imagenet 业界新记录。
注:该文系52CV群友原作者投稿,是作者在美团实习期间在初祥祥(美团 Mentor,前小米 AutoML 负责人)指导参与下而做的工作,ICLR 2021 录用论文。
2019 AI开发者大会是由中国IT社区 CSDN 主办的 AI 技术与产业年度盛会,2019 年 9 月 6-7 日,近百位中美顶尖 AI 专家、知名企业代表以及千余名 AI 开发者齐聚北京,进行技术解读和产业论证。
写这篇文章就是因为up主的邀请,然后分享一下自己工作时候总结的一些经验和技巧,不一定适用别的网络,有的还可能会有反作用,所以也就是给大家提供一个思路,欢迎拍砖吧,因为都是公司数据,分享试验结果也比较麻烦,所以大家看个思路就好。
启动jupyter notebook,使用新增的pytorch环境新建ipynb文件,为了检查环境配置是否合理,输入import torch以及torch.cuda.is_available() ,若返回TRUE则说明研究环境配置正确,若返回False但可以正确导入torch则说明pytorch配置成功,但研究运行是在CPU进行的,结果如下:
论文链接:https://arxiv.org/pdf/2110.01253.pdf
我国水资源目前面临着总量匮乏和分布不均的问题,这些都给城市水务部门的工作带来不小的挑战。随着人工智能技术的发展和计算机运算能力的增强,各个城市的水务部门纷纷展开智慧供水项目的研究,其中的核心内容就是对居民用水量的准确预测。
强化学习里的 env.reset() env.step() 就是训练环境。其编写流程如下:
作者:丁一帆 https://www.zhihu.com/question/310387269/answer/926638382
进来有很多种NAS技术相继提出,主要有基于强化学习的,基于进化算法的,还有基于梯度下降的,不同算法有不同优缺点。本文的PDARTS就是基于梯度下降的,其实看名字也能知道它其实是对DARTS的改进算法。
在机器学习中,过拟合是一个常见的问题,即模型在训练数据上表现很好,但在新数据上表现不佳。为了解决这个问题,正则化技术应运而生。
今年 7 月,「深度学习教父」Geoffrey Hinton 和他的团队发表了一篇关于深度神经网络优化器的论文,介绍了一种新的优化器「LookAhead」 (《LookAhead optimizer: k steps forward, 1 step back》,https://arxiv.org/abs/1907.08610)。LookAhead 的设计得益于对神经网络损失空间理解的最新进展,提供了一种全新的稳定深度神经网络训练、稳定收敛速度的方法。
生成对抗网络(GAN)是一种强大的生成模型,但是自从2014年Ian Goodfellow提出以来,GAN就存在训练不稳定的问题。最近提出的 Wasserstein GAN(WGAN)在训练稳定性上有极大的进步,但是在某些设定下仍存在生成低质量的样本,或者不能收敛等问题。 近日,蒙特利尔大学的研究者们在WGAN的训练上又有了新的进展,他们将论文《Improved Training of Wasserstein GANs》发布在了arXiv上。研究者们发现失败的案例通常是由在WGAN中使用权重剪枝来对crit
第四阶段我们进行深度学习(AI),本部分(第一部分)主要是对底层的数据结构与算法部分进行详尽的讲解,通过本部分的学习主要达到以下两方面的效果:
①D3QN——D3 指的是 Dueling Double DQN,主要集成了 Double DQN 与 Dueling DQN 的方法架构,另可与 Noisy DQN 来配合γ-greedy 方法来提升探索效率。
快来试试 Lookahead 最优化方法啊,调参少、收敛好、速度还快,大牛用了都说好。
最优化方法一直主导着模型的学习过程,没有最优化器模型也就没了灵魂。好的最优化方法一直是 ML 社区在积极探索的,它几乎对任何机器学习任务都会有极大的帮助。
机器学习模型在训练数据集和测试数据集上的表现。如果你改变过实验中的模型结构或者超参数,你也许发现了:当模型在训练数据集上更准确时,它在测试数据集上却不⼀定更准确。这是为什么呢?
加入一个或多个隐藏层+激活函数来克服线性模型的限制, 使其能处理更普遍的函数关系类型,这种架构通常称为多层感知机(multilayer perceptron)。
近日,蒙特利尔大学的研究者们在WGAN的训练上又有了新的进展,他们将论文《Improved Training of Wasserstein GANs》发布在了arXiv上。研究者们发现失败的案例通常是由在WGAN中使用权重剪枝来对critic实施Lipschitz约束导致的。在本片论文中,研究者们提出了一种替代权重剪枝实施Lipschitz约束的方法:惩罚critic对输入的梯度。该方法收敛速度更快,并能够生成比权重剪枝的WGAN更高质量的样本。 生成对抗网络(GAN)将生成问题当作两个对抗网络的博弈:生成
苏黎世理工大学的博士Andreas Lugmayr历数了各种GAN的“罪状”,说出了今后弃用GAN的话。
通过这么长时间的学习,我们应该对于通过深度学习解决问题的大体流程有个宏观的概念了吧?
深度学习中调参其实是一个比较重要的技巧,但很多时候都需要多尝试多积累经验,因此算法工程师也被调侃为调参工程师。
DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种基于密度的空间聚类算法。该算法将具有足够密度的区域划分为簇,并在具有噪声的空间数据库中发现任意形状的簇,它将簇定义为密度相连的点的最大集合。 在DBSCAN算法中将数据点分为三类:
卷积神经网络在有监督学习中的各项任务上都有很好的表现,但在无监督学习领域,却比较少。本文介绍的算法将有监督学习中的CNN和无监督学习中的GAN结合到了一起。 在非CNN条件下,LAPGAN在图像分辨率提升领域也取得了好的效果。 与其将本文看成是CNN的扩展,不如将其看成GAN的扩展到CNN领域。而GAN的基本算法,可以参考对抗神经网络。 GAN无需特定的cost function的优势和学习过程可以学习到很好的特征表示,但是GAN训练起来非常不稳定,经常会使得生成器产生没有意义的输出。而论文的贡献就在于:
1)内存利用率提高了,大矩阵乘法的并行化效率提高。 2)跑完一次 epoch(全数据集)所需的迭代次数减少,对于相同数据量的处理速度进一步加快。 3)在一定范围内,一般来说 Batch_Size 越大,其确定的下降方向越准,引起训练震荡越小。 随着 Batch_Size 增大,处理相同数据量的速度越快。 随着 Batch_Size 增大,达到相同精度所需要的 epoch 数量越来越多。” 由于最终收敛精度会陷入不同的局部极值,因此 Batch_Size 增大到某些时候,达到最终收敛精度上的最优。
对于机器学习模型在训练数据集和测试数据集上的表现。如果你改变过实验中的模型结构或者超参数,你也许发现了:当模型在训练数据集上更准确时,它在测试数据集上却不⼀定更准确。这是为什么呢?
这是本系列的第三篇文章,前两篇主要是讲怎么取得速度&精度的平衡以及一些常用的调参技巧,本文主要结合自身经验讲解一些辅助训练的手段和技术。
这篇论文的全名是:Bag of Tricks for Image Classification with Convolutional Neural Networks 。论文地址见附录。这篇论文是亚马逊团队对CNN网络调优的经验总结,实验基本是在分类网络实验上做的。目前,论文的复现结果都可以在GluonCV找到,地址为:https://github.com/dmlc/gluon-cv。可以将这篇论文理解为一堆经验丰富的工程师的调参技巧汇总,无论你是在做比赛,做学术,还是已经工作的AI开发者,相信都能从中受益。
本文为CSDN优质博文。作者:张雨石,现就职于Google北京输入法团队。 本文是参考文献 [1] 的论文笔记。 卷积神经网络在有监督学习中的各项任务上都有很好的表现,但在无监督学习领域,却比较少。本文介绍的算法将有监督学习中的CNN和无监督学习中的GAN结合到了一起。 在非CNN条件下,LAPGAN在图像分辨率提升领域也取得了好的效果。 与其将本文看成是CNN的扩展,不如将其看成GAN的扩展到CNN领域。而GAN的基本算法,可以参考对抗神经网络。 GAN无需特定的cost function的优势和学习过
想象一下,当今社会备受瞩目的人工智能和数据挖掘算法工程师每天大部分时间都在做什么呢?是花大量时间手推公式,还是思考各种trick对算法调参,还是一遍遍清洗数据和加工特征?实际上,大部分的数据挖掘/算法工程师在日常的工作流程中,80%以上的时间用于研究特征工程,而他们在算法设计和模型优化上分配的时间不到20%。特征工程为何如此重要,以至于数据挖掘/算法工程师甘愿把如此之多时间都花在这上面呢?
2、在一趟选择中,如果当前元素比一个元素小,而该小的元素又出现在一个和当前元素相等的元素后面,那么交换后稳定性就被破坏了;
给大家介绍一个新的深度学习优化器,Ranger,同时具备RAdam和LookAhead的优点,一行代码提升你的模型能力。
本文完整展示了一个将强化学习用于股票投资的案例,呈现了大量算法细节和实验分析,非常值得收藏深研。
【AI研习社】关注AI前沿、开发技巧及技术教程等方面的内容。欢迎技术开发类文章、视频教程等内容投稿,邮件发送至:zhangxian@leiphone.com 谷歌表示,仅仅在发布的第一年里,TensorFlow就帮助研究人员、工程师、艺术家、学生以及其他行业人员取得了巨大研究进展。这包括机器翻译、早期皮肤癌检测、防止糖尿病失明并发症等诸多领域。如今,TensorFlow 被用于逾 6000 个开源资源库,谷歌研究人员对此感到十分欣喜。 昨晚谷歌在山景城举办了第一届 TensorFlow 开
谷歌表示,仅仅在发布的第一年里,TensorFlow 就帮助研究人员、工程师、艺术家、学生以及其他行业人员取得了巨大研究进展。这包括机器翻译、早期皮肤癌检测、防止糖尿病失明并发症等诸多领域。如今,TensorFlow 被用于逾 6000 个开源资源库,谷歌研究人员对此感到十分欣喜。 昨晚谷歌在山景城举办了第一届 TensorFlow 开发者峰会。作为大会的一部分,TensorFlow 1.0 的正式版本被发布出来。一起来看看它都有哪些新特性: 更快 它运算更快——TensorFlow 1.0 有十分
作者:林孟潇 https://www.zhihu.com/question/355779873/answer/893928396
在2008年时,市场软件形式大多为CS架构。当时存在的问题在于,开发耗时1-2年且内部的解耦度低;而优点在于对测试团队十分友好。
一 前言 纳西姆.尼古拉斯.塔勒布的经典著作《黑天鹅》中对“黑天鹅现象”的定义是
在云原生领域,Serverless 已然是大势所趋。相比 Serverful 模式(基于云服务器集群的K8s运维模式),Serverless 模式屏蔽了资源概念,大幅提升运维效率。用户无需介入底层运维:像操作系统的安全补丁升级这样的动作,判断升级时机 - 升级前置检查 - 无损分批升级全部都由平台自动闭环。但 Serverless 真的适合所有场景么?其实不然。
领取专属 10元无门槛券
手把手带您无忧上云