谁能想到一家中国量化公司发布全新AI聊天机器人正在全球科技界掀起巨浪,2025开年最热的科技圈事件,莫过于DeepSeek不仅以惊人速度登顶美国iOS免费应用下载榜,将ChatGPT甩在身后,更引发英伟达单日市值蒸发6000亿美元(约合4830亿英镑)——创下美股历史最大单日跌幅纪录了吧?
这场动荡的根源,在于支撑DeepSeek的LLM展现出与OpenAI的o1等美国顶尖模型相当的推理能力,而据称其训练和运行成本仅为对手的零头,毋庸置疑,DeepSeek正在颠覆行业认知。
DeepSeek宣称其突破源于三大技术策略的协同创新:动态稀疏训练架构、混合精度内存压缩与自适应学习率调度。这些技术使得其旗舰模型R1的V3基础版本,在仅使用278.8万GPU小时(并行运行于多块图形处理器)的训练周期内达成惊人效果。据测算,其总训练成本不足600万美元(约480万英镑),相较之下,OpenAI首席执行官萨姆·阿尔特曼透露GPT-4的训练费用超过1亿美元。
值得关注的是,尽管DeepSeek极具性价比的训练成本似乎间接引发了英伟达股价震荡,但DeepSeek的技术白皮书显示其模型训练正是基于约2000块英伟达H800 GPU完成。这款芯片作为业界主流H100的"中国特供版",专为符合对华出口管制设计。行业观察人士指出,DeepSeek很可能在美国政府2023年10月升级芯片禁令前完成硬件储备,这种技术封锁压力反而倒逼其开发出独特的算力优化方案。
与此同时,降低训练和运行模型的计算成本也可能解决人们对AI环境影响的担忧。为了防止服务器过热,大模型训练运行的数据中心对电力和水的需求巨大。虽然大多数技术公司不披露运营其模型所涉及的碳足迹,但最近的估计显示,ChatGPT每月的二氧化碳排放量超过260吨——这相当于260次从伦敦到纽约的航班的排放量。提高AI模型的效率也将从环境角度为行业带来更积极的方向。当然,DeepSeek模型是否确实能在现实世界中节省能源还有待观察,而且目前还不清楚更便宜、更高效的AI是否会导致更多人使用该模型,从而增加整体能源消耗。不过,这至少有助于将可持续AI提上议程,以便我们未来使用的AI工具也能对地球更加友好。
令许多人惊讶的是,DeepSeek以如此具有竞争力的大型语言模型迅速出现在人们视野中——该公司由梁文峰于2023年成立,该模型由一组较小的模型组成,每个模型在特定领域都具有专业知识。
最新的DeepSeek模型还因其“权重”——即从训练过程中获得的模型的数值参数——以及描述模型开发过程的技术论文而被公开发布而广受好评,因为其他团队也能够在自己的设备上运行该模型并将其适应于其他任务。这种开放性还意味着,全球的研究人员现在能够深入了解模型的内部,了解其工作原理,这与OpenAI的o1和o3不同,后者实际上是黑匣子。
DeepSeek的一些成本削减技术并非全新,例如“专家混合”技术,该技术已在其他LLM中使用。2023年,Mistral AI公开了其Mixtral 8x7B模型,该模型与当时的高级模型相当。Mixtral和DeepSeek模型都利用了“专家混合”技术,即模型由一组较小的模型组成,每个模型在特定领域具有专业知识。给定任务时,混合模型会将其分配给最合适的“专家”。DeepSeek甚至公开了其通过其他技术方法(如蒙特卡洛树搜索)改进LLM推理的失败尝试。研究人员将利用这些信息进一步探索如何增强模型已经令人印象深刻的问题解决能力,这些改进可能会应用于下一代AI模型。总的来说,DeepSeek的崛起表明,开发复杂的AI模型并不一定需要庞大的资源。随着公司找到提高模型训练和运行效率的方法,未来我们可能会看到更多资源有限但能力强大的AI模型出现。这一发展可能会推动AI技术的普及,并进一步推动对相关芯片和产品的需求。
DeepSeek可能正在展示,构建复杂的人工智能模型并不一定需要庞大的资源。我们可能会开始看到,随着公司找到提高模型训练和操作效率的方法,开发出能力越来越强的人工智能模型所需的资源将会越来越少。
到目前为止,人工智能领域一直由美国的“大型科技”公司主导——特朗普称DeepSeek的崛起对美国科技产业是“一个警钟”。但从长远来看,对英伟达等公司来说未必是坏消息:随着开发AI产品的资金和时间成本降低,企业和政府将能够更容易地采用这项技术。这反过来又会推动对新产品及其所需芯片的需求,形成一个更良性的循环。
看起来,像DeepSeek这样小而美的公司将在未来发挥越来越大的作用,它们创造的AI工具有潜力让我们的生活变得更轻松。DeepSeek的出现挑战了长期以来由西方科技巨头主导的人工智能领域,同时也迫使这些公司重新思考他们的策略。不管怎样,更多的竞争意味着更快的创新,希望这种竞争能为每个人带来更好的定价和可用性。
本文系外文翻译,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文系外文翻译,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。