部署DeepSeek模型,进群交流最in玩法!
立即加群
发布
社区首页 >专栏 >deepseek V3开源创新点到底有多大?

deepseek V3开源创新点到底有多大?

原创
作者头像
算法一只狗
修改2025-02-06 10:33:02
修改2025-02-06 10:33:02
3850
举报
文章被收录于专栏:算法一只狗算法一只狗

一句话说的就是,DeepSeek V3证明了,不需要大规模的算力也能够把大模型的能力提升到和GPT-4o一样的水平。

DeepSeek V3展示了无需庞大算力也能打造媲美GPT-4o的大模型。其训练耗时仅278.8万GPU小时,总成本约为557.6万美元,而同规模的Llama 3 405B需要耗费3080万GPU小时,成本显著更高。

训练阶段与成本估算

  1. 预训练:2664K GPU小时,约532.8万美元
  2. 上下文扩展:119K GPU小时,约23.8万美元
  3. 后期训练:5K GPU小时,约1千美元 总计:2788K GPU小时,约557.6万美元

从论文中的公布细节可以得到它的训练成本估算

  • 以 H800 GPU 小时为单位。H800 GPU 的租赁价格假定为每小时 2 美元。
  • 训练分为三个阶段:预训练、上下文扩展和后期训练:
  • 预训练:使用了 2664K(266.4 万)GPU 小时,成本约为 532.8 万美元。
  • 上下文扩展:使用了 119K(11.9 万)GPU 小时,成本约为 23.8 万美元。
  • 后期训练:使用了 5K GPU 小时,成本约为 1,000 美元。
  • 总成本:2788K(278.8 万)GPU 小时,总费用为 557.6 万美元。

比起动辄几百亿人民币都训练不出来一个好用的大模型,DeepSeek V3的训练简直颠覆了大家的想象。这里训练这么省钱当然主要是因为该模型原生就是FP8,还有在模型架构上做了一些优化导致模型训练成本很低。

模型的一些训练细节

先总结模型的一些细节,DeepSeek V3训练成本低的关键在于:

  1. 原生支持FP8数据格式;
  2. 引入高效的多头潜在注意力(MLA),通过压缩和扩展latent vector,优化计算;
  3. 在MOE架构中结合路由专家和共享专家,提高参数更新效率;
  4. 使用多tokens预测(MTP),增加训练信息密度,强化长距离依赖建模。

DeepSeek V3除了使用了FP8之外,还有一些其他的模型细节。比如它继续采用了多头潜在注意力(MLA)来实现高效推理。它在传统多头注意力机制(Multi-Head Attention)的基础上,引入了潜在特征(Latent Features)概念,进一步提高了对复杂关系的建模能力。

也就是先把token的特征压缩成一个小维度的latent vector,然后再通过一些简单的变换把它扩展到各个头需要的Key和Value空间。对于一些重要的信息,比如旋转位置编码RoPE,会进行单独处理,这样网络仍然可以保留时间和位置的信息。

在MOE架构中,引入了路由专家 (Routed Experts) 和共享专家 (Shared Experts) 。主要是用来激活那些参数需要被更新。

路由专家中主要是用来选择参数进行激活。对于每个输入的token,只有一部分路由专家会被选中来参与计算。这个选择过程是由一个门控机制决定的,比如DeepSeekMoE中用的那种根据亲和度分数来选的Top-K方式。

共享专家始终参与所有输入的处理。无论输入是什么,所有共享专家都会贡献它们的力量。

还用到了一个MTP(多个tokens预测)技术MTP的核心理念在于训练时,模型不仅要预测下一个token(就像传统语言模型那样),还要同时预测序列后面的几个token。这样一来,模型就能获得更丰富的训练信息,有助于它更深入地理解上下文以及长距离的依赖关系。

通过上面几个简单的trick,就可以很好的训练出一个质量不出的大模型出来,并且能够和GPT-4o和Claude 3.5相媲美。这个工作给很多公司提供了新的思路。其高效的训练方法和较低的计算成本,可以给其他没有资源的公司借鉴一下,也验证了大规模的GPU集群不是训练大模型的必要条件。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 训练阶段与成本估算
  • 模型的一些训练细节
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档