
DeepSeek在其成立一周年之际,曝光了一款名为MODEL1的全新架构模型。根据Github泄漏的信息,这款模型并非简单的版本迭代,而是一次重大的架构革新,展现了DeepSeek在AI领域的持续创新能力。

特性 | MODEL1 | V3.2 |
|---|---|---|
架构类型 | 全新架构 | 现有架构 |
硬件支持 | SM90 + SM100 | 主要SM90 |
核心创新 | 值向量位置感知 + Engram | 传统MLA |
内存优化 | FP8 + 稀疏处理 | 标准优化 |
MODEL1通过引入Engram机制,实现了:
据消息透露,DeepSeek计划在2月中旬春节前后发布下一代旗舰模型,MODEL1很可能就是这次发布的核心产品。
新浪财经 - DeepSeek新模型MODEL1曝光
作享智库 - DeepSeek FlashMLA源码库更新
GitHub - DeepSeek FlashMLA