首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

让你的2060显卡当3080用?这个国产AI加速项目有点猛

我们常说,现在很多人工智能项目程序考验的是钞能力,没钱堆显卡硬件,根本就无法训练哪怕稍微大一点的深度学习模型。特别是现在大模型越来越流行,越来越多了。虽然我们普通人能站在巨人的肩膀上,用很多大厂或高手开源出来的预训练模型,不过机智客觉得我们更多情况下,自己都是受制于自己的硬件条件的。比如同等型号类型(比如同为某型号的super或Ti)我们是10系列显卡,那么有些要求20系列显卡的应用或深度学习项目就做不了,如果是20系列显卡,肯定在某些项目中,比不上30系列显卡。

显卡,不仅是那些广大普通劳动人民游戏党们心中的痛,也是我们广大普通劳动人民调参侠AI爱好者心中的痛。不同的是,游戏界的兄弟姐妹们,面对显卡桎梏,估计“没的救”,而对于深度学习爱好者们,估计还有得救。比如机智客看到报道的这个国产的名为Colossal-AI的项目。这货,让你的显卡做原来做不了的事,训练原来训练不了的项目。没错,它是一个“加速器”:整合了多种深度学习并行方法的AI系统。

这个项目在多维并行、大规模优化、自适应任务调度、消除冗余内存等方面拥有独特的功能优势。机智客看相关资料显示,这个也就是说,在以往数据并行、流水并行、张量并行基础上,添加了自研的2维/2.5维/3维张量并行方法,以及序列并行实现。而自研LAMB、LARS等大规模优化器,解决了泛化误差问题。通过演化算法,Colossal-AI动态地优化调度决策,提升GPU利用率。另外在消除冗余内存方面,它使用zero redundancy optimizer技术,通过切分优化器状态、梯度、模型参数,使GPU仅保存当前计算所需的部分,从而来消除数据并行、模型并行中存在的内存冗余。同样,在面对传统大模型难以部署的问题,它也可以仅使用少量GPU资源实现低成本部署大模型。

不仅如此,这个项目还既考虑到了现在让很多人诟病的能耗问题,又顾及到了使用者的体验问题也就是易用性问题。比如尽可能减少数据移动量,比如仅修改少量代码,就能将已有的单机代码快速扩展到并行计算集群上。

回到现实测试环境,在同等情况下训练GPT-3,Colossal-AI这货能将训练速度提高10.7%。通过系统优化,还能用比之前少几十块的GPU资源(比如从之前的128块,降低到96块)实现几乎同样的速度。要知道,这可是大模型啊。

别的我们接触的少,用我们以前用过的GPT-2来举例子看看,据了解,研究人员仅用了256块GPU,耗时82.8小时就将15亿参数的GPT-2训练完成了,而更大的GPU规模呢,岂不是四五十个小时就能搞定了。是不是比较卓越?最后回到标题,当然了,机智客说让我们的2060显卡当3080显卡用,面对本文提及的项目似乎并无意义,不过这样的AI项目,的确是在降低我们的硬件成本和时间成本。虽然对单个的显卡,而当我们切换到生产环境中以后,类似这样的AI项目就是在让我们GPU资源的利用提升了一个高度,以往不能训练的,现在可以训练了。如此AI,岂不快哉。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20220121A03JLP00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券