其实并没有超越这一说,只是现在DeepSeek的热度让大家都意识到,以前那一套堆算力去训练大模型的方法,其实还有另一种可能。
我们先来看看DeepSeek对于这个话题是怎么思考的:
它其实也认为,目前对于开源模型DeepSeek来说,优势在于可以进行本地化部署、价格便宜且又好用。
而对于OpenAI来说,它的好几个大模型其实目前效果还是出于领先地位。包括其最新推出的o3 mini,就是为了用来反击DeepSeek的。
作为 o1-mini 模型的继任者,**o3-mini** 是目前推理系列中最新且最具性价比的模型。OpenAI 研究科学家 Noam Brown 在 X 平台发文称:
「我们十分高兴地推出 o3-mini,并向免费用户开放。在多项评估中,它的性能表现优于 o1-mini。我们正在彻底改变成本与智能之间的关系——模型智能将持续提升,而获得相同智能水平的成本则会不断降低。」
o3-mini 系列模型具体亮点如下:
因此对于DeepSeek来说,不管是v3模型还是它推出的r1推理模型,暂时还没有达到超越OpenAI的地步。但为什么它最近一直热度不减,甚至逼得OpenAI紧急应对呢?
这是因为DeepSeek的出现,一夜之间戳破了算力至上的神话~
从前大家都认为,要训练一个大模型往往需要大规模的算力集群才能够搞出一个ChatGPT出来。
所以美国一直在对我们进行算力封锁。包括把一些高性能的计算卡禁止卖给中国。因此,国内的很多公司在训练大模型的时候,只能基于有限的算力去进行训练,改进出很多算法用来进一步压缩模型训练所需要消耗的资源。
从最开始的DeepSeek V3开始,其就进行了开源,并公布了其技术细节。而且用的是MIT开源协议,任何一个有一定算力的玩家都能够复现出相应的模型出来。
这进一步让华尔街看到算力之上的这个神话破灭,也导致英伟达的股价一晚上就跌了接近17%
在过去,英伟达在这一波大模型风潮下受益最多,因为任何一个大模型在训练的时候都需要用到英伟达的高性能计算卡,比如H100和H800等。相当于是一个“卖铲子”的角色,可能最后大模型没有赢家,但是英伟达肯定可以坐收渔利,其股价从60一路上涨到140左右。但是DeepSeek的出现说明了GPU也不是必须的了。
从训练成本角度来看,DeepSeek V3的训练总共才用了不到280万个GPU小时,而Llama 3 405B却用了3080万GPU小时。用训练一个模型所花费的钱来说,训练一个DeepSeek V3只需要花费557.6万美元,相比之下,一个简单的7B Llama 3模型则需要花费76万美元。
从论文中的公布细节可以得到它的训练成本估算:
比起动辄几百亿人民币都训练不出来一个好用的大模型,DeepSeek V3的训练简直颠覆了大家的想象。因此现在大家都知道了,其实我也不需要拼命堆算力,也可以做出一个效果不错的大模型出来,那OpenAI那一套堆算力的老路子应该要过时了。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。