首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >DeepSeek新模型MODEL1曝光!

DeepSeek新模型MODEL1曝光!

作者头像
AgenticAI
发布2026-01-22 13:36:24
发布2026-01-22 13:36:24
1030
举报
文章被收录于专栏:AgenticAIAgenticAI

DeepSeek在其成立一周年之际,曝光了一款名为MODEL1的全新架构模型。根据Github泄漏的信息,这款模型并非简单的版本迭代,而是一次重大的架构革新,展现了DeepSeek在AI领域的持续创新能力。

核心技术创新

  1. 硬件架构支持
  • 全面支持英伟达Hopper(SM90)与下一代架构(SM100)
  • 通过FlashMLA代码更新,横跨114个文件中有28处提到MODEL1
  • 与现有的DeepSeek-V3.2(V32)作为不同的模型架构出现
  1. 关键技术突破
  • 统一回归512标准维度:优化了模型的核心参数配置
  • 首创"值向量位置感知":在注意力机制上的重要创新
  • 引入Engram机制:条件记忆通过可扩展查找实现,解决Transformer缺乏原生查表记忆的缺陷
  • DSA(DeepSeek Sparse Attention)机制:实现显存效率与推理精度的双重跨越
  1. 内存优化技术 代码差异主要体现在:
  • KV缓存布局优化
  • 稀疏性处理改进
  • FP8解码优化

技术架构对比

特性

MODEL1

V3.2

架构类型

全新架构

现有架构

硬件支持

SM90 + SM100

主要SM90

核心创新

值向量位置感知 + Engram

传统MLA

内存优化

FP8 + 稀疏处理

标准优化

性能优势

MODEL1通过引入Engram机制,实现了:

  • O(1)查表取向量:让模型直接获取知识而非逐层计算
  • 条件记忆机制:将20-25%参数用于记忆存储,效果最佳
  • 显存效率提升:显著降低内存占用
  • 推理精度优化:在保持高性能的同时提升准确性

发布计划

据消息透露,DeepSeek计划在2月中旬春节前后发布下一代旗舰模型,MODEL1很可能就是这次发布的核心产品。

参考来源

新浪财经 - DeepSeek新模型MODEL1曝光

作享智库 - DeepSeek FlashMLA源码库更新

GitHub - DeepSeek FlashMLA

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-01-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AgenticAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 核心技术创新
  • 技术架构对比
  • 性能优势
  • 发布计划
  • 参考来源
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档