开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >专栏 >DeepSeek新模型MODEL1曝光！

DeepSeek新模型MODEL1曝光！

作者头像

AgenticAI

发布于 2026-01-22 13:36:24

发布于 2026-01-22 13:36:24

7860

举报

文章被收录于专栏：AgenticAIAgenticAI

DeepSeek在其成立一周年之际，曝光了一款名为MODEL1的全新架构模型。根据Github泄漏的信息，这款模型并非简单的版本迭代，而是一次重大的架构革新，展现了DeepSeek在AI领域的持续创新能力。

核心技术创新

硬件架构支持

全面支持英伟达Hopper（SM90）与下一代架构（SM100）
通过FlashMLA代码更新，横跨114个文件中有28处提到MODEL1
与现有的DeepSeek-V3.2（V32）作为不同的模型架构出现

关键技术突破

统一回归512标准维度：优化了模型的核心参数配置
首创"值向量位置感知"：在注意力机制上的重要创新
引入Engram机制：条件记忆通过可扩展查找实现，解决Transformer缺乏原生查表记忆的缺陷
DSA（DeepSeek Sparse Attention）机制：实现显存效率与推理精度的双重跨越

内存优化技术代码差异主要体现在：

KV缓存布局优化
稀疏性处理改进
FP8解码优化

技术架构对比

特性	MODEL1	V3.2
架构类型	全新架构	现有架构
硬件支持	SM90 + SM100	主要SM90
核心创新	值向量位置感知 + Engram	传统MLA
内存优化	FP8 + 稀疏处理	标准优化

性能优势

MODEL1通过引入Engram机制，实现了：

O(1)查表取向量：让模型直接获取知识而非逐层计算
条件记忆机制：将20-25%参数用于记忆存储，效果最佳
显存效率提升：显著降低内存占用
推理精度优化：在保持高性能的同时提升准确性

发布计划

据消息透露，DeepSeek计划在2月中旬春节前后发布下一代旗舰模型，MODEL1很可能就是这次发布的核心产品。

参考来源

新浪财经 - DeepSeek新模型MODEL1曝光

作享智库 - DeepSeek FlashMLA源码库更新

GitHub - DeepSeek FlashMLA

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-01-21，如有侵权请联系 cloudcommunity@tencent.com 删除

目录

核心技术创新

技术架构对比

性能优势

发布计划

参考来源