对整个行业可以说是彻底的颠覆。国内国外的人都在惊讶,deepseek为什么可以用这么低的成本训练出一个比肩GPT-4o的大模型。而且调用其API像不要钱一样,百万tokens才0.02美元左右。
一句话说的就是,DeepSeek V3证明了,不需要大规模的算力也能够把大模型的能力提升到和GPT-4o一样的水平。
Deepseek v3 整体来说是一款由幻方推出的高性能开源 AI 模型,以极低的训练成本(600 万美元)和 API 使用成本超越了 GPT-4o 和 Claude Sonnet 3.5,尤其在编程和数学任务中表现优异。该模型采用了“混合专家”架构,并通过自生成数学证明数据集等创新方法训练。其开放的许可模式允许商业使用,性价比极高。
尽管中国面临芯片供应限制,Deepseek 展示了其在 AI 模型领域的快速进展。然而,关于模型可能大量使用 ChatGPT 输出进行训练的争议引发了对“AI 模型自我循环训练”导致质量下降的担忧。但目前 Deepseek v3 的性能依然表现出色,成为开源领域的领先模型之一。
该模型于圣诞节发布,再次显示出 AI 技术惊人的发展速度。

DeepSeek V3的训练总共才用了不到280万个GPU小时,而Llama 3 405B却用了3080万GPU小时。用训练一个模型所花费的钱来说,训练一个DeepSeek V3只需要花费557.6万美元,相比之下,一个简单的7B Llama 3模型则需要花费76万美元。

从论文中的公布细节可以得到它的训练成本估算:
比起动辄几百亿人民币都训练不出来一个好用的大模型,DeepSeek V3的训练简直颠覆了大家的想象。这里训练这么省钱当然主要是因为该模型原生就是FP8,还有在模型架构上做了一些优化导致模型训练成本很低。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。