DeepSeek、月之暗面同一天更新论文，核心都是注意力机制

文章来源：企鹅号 - 财中社

2月18日，DeepSeek和月之暗面几乎同时发布了他们各自最新的论文，而主题直接“撞车”——都是挑战Transformer架构最核心的注意力机制，让它能更高效处理更长的上下文。

更有趣的是，两家公司技术派明星创始人的名字出现在各自的论文和技术报告里。

与此前人们津津乐道的算法创新相比，DeepSeek这一次把手伸向了最核心的注意力机制（attention）的改造上。

Transformer是当下所有大模型繁荣的基础，但它的核心算法注意力机制依然有先天问题：拿读书做比喻，传统的“全注意力机制”为了理解和生成，会阅读文本里的每个词，并拿它与其他所有词作比较。这样导致处理文本越长算法越复杂，技术越卡，甚至崩溃。

DeepSeek最新发布的论文提到，NSA是一种与硬件一致且本机可训练的稀疏注意力机制，用于超快速的长上下文训练和推理。通过针对现代硬件的优化设计，NSA加快了推理速度，同时降低了预训练成本，而不会影响性能。在一般基准测试、长上下文任务和基于指令的推理上，它的表现与完全注意力模型相当甚至更好。

在月之暗面的论文里，也提出了一个在核心思想上非常一致的架构：MoBA。MoBA里有个像 “智能筛选员”一样的门控网络，它负责挑选与一个“块”最相关的 Top-K 个块，只对这些选中的块计算注意力。

杨植麟最初创办月之暗面受到关注的一个重要原因，是他的论文影响力和引用量，但K1.5论文之前，他最后一篇论文类的研究停留在2024年1月。

梁文锋虽然作为作者出现在DeepSeek最重要的模型技术报告里，但这些报告的作者名录几乎相当于DeepSeek的员工名录，几乎所有人都列在里面。而NSA的论文作者则只有几人。

由此也可以看出两家公司创始人对公司的重要性，并提供对深入了解DeepSeek和月之暗面技术路线的路径。

相关快讯