首页
学习
活动
专区
圈层
工具
发布

DeepSeek 字节专家交流汇总

一. 观点分享

DeepSeek和基于transformer的模型路径基本是一致的,核心点是工程能力上的创新。

几个核心技术原理:MoE、FP8混合精度、pipeline、用RL强化学习而不用SFT监督微调来做链式推理COT。

模型一方面是理论,另一方面是工程;先前公司都盯着理论层面,字节也是一样的。

深度学习路径来说,字节方案和DeepSeek方案差不多,字节内部也针对MoE架构、注意力优化,最惊讶的还是成本端;

DeepSeek路径比Kimi更精准一些,字节在内的很多大厂在参考其路径和模型结构,能够在短时间之内做出镜像版本。

因为预算比较多,没有特别围绕卡的算力做垂类优化,在模型训练阶段比DeepSeek成本高一些。

二. 交流探讨

Q:DeepSeek利好国产芯片吗?

A:DeepSeek还是绕不过英伟达GPU;目前阶段,绝大多数国内模型的算力基座还是英伟达系列。

国产卡性能还是有差距,可选也不多,万卡互连对于算力本身的通信、稳定性都有要求,需要对国产芯片做适配验证。

后续很多企业会因为DeepSeek低成本模型的覆盖,激发二轮训练的需求,在千张卡互联训练中可以使用国产芯片。

Q:未来对GPU的需求会减少吗?

A:因为工程优化,海外公司的恐慌在于GPU卡是否不需要了,DeepSeek加速了我们对工程路径的验证和探索的速度。

DeepSeek是标准开源模型,会对闭源市场产生很大冲击,模型拉到本地就是自己的。

应用侧主要还是卡不够,因为DeepSeek之前还是小体量,芯片储备还是有限,训练和推理是不同的商业模式:

推理还是针对垂类,不是因为基座模型很强,C端应用就会做的很强;成本还是大问题,豆包1000多个工程师在进行优化。

Q:训练卡、推理卡的比例?

A:字节现在手里有10万张,H20有20多万张,H20一半推理一半训练。

我们买到的芯片还是训练卡占大多数,目前37开,但25年可能会有结构性变化:

推理需求会因为多模态等起量,日均模型调用量会从4万亿Token增长到40万亿;

4万亿日均Token,对应10万张英伟达A10/A30/L20/L40;40万亿的时候,以H20/590/910B/910C为主,其余包括L40/5090等。

Q:整体结构?

公司结构方面,Seed不承担任何商业化指标,文本、图形都在这里;

中间层是方舟,做模型蒸馏、裁剪量化、商业化封装,变成可用模型;

再往下就是Flow(豆包、猫箱等),都是创新应用团队,第三块是火山引擎。

Q:如何降低推理成本?

增长到日均40万亿Token,对于模型应用来说,可能会做削峰填谷、算力调度,来降低推理成本。

模型调用有两种方式,一种是Token、一种是调用次数,字节选用的是Token。

Token是计量单位,之前是纯文本、图片是1:4000、图像理解是1:1500、文生视频是1秒:150000。

2024年初文本占比较高,一次调用约等于800Token,现在一次调用约等于2000Token。

Q:推理成本受算法影响的程度?

A:单次训练成本DeepSeek更低,但推理成本并不低,定价也不算便宜;字节定价是比DeepSeek低的,同样万卡推理,字节有规模效应。

DeepSeek目前有2万张训练卡,最近紧急开了1-2万张卡,总的来说并不多;字节4万亿Token对应10万张卡,可以进行相应换算。

——END——

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OXBAoef-2RiW8tr66iojNXCg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券