2月18日,DeepSeek和月之暗面几乎同时发布了他们各自最新的论文,而主题直接“撞车”——都是挑战Transformer架构最核心的注意力机制,让它能更高效处理更长的上下文。
更有趣的是,两家公司技术派明星创始人的名字出现在各自的论文和技术报告里。
与此前人们津津乐道的算法创新相比,DeepSeek这一次把手伸向了最核心的注意力机制(attention)的改造上。
Transformer是当下所有大模型繁荣的基础,但它的核心算法注意力机制依然有先天问题:拿读书做比喻,传统的“全注意力机制”为了理解和生成,会阅读文本里的每个词,并拿它与其他所有词作比较。这样导致处理文本越长算法越复杂,技术越卡,甚至崩溃。
DeepSeek最新发布的论文提到,NSA是一种与硬件一致且本机可训练的稀疏注意力机制,用于超快速的长上下文训练和推理。通过针对现代硬件的优化设计,NSA加快了推理速度,同时降低了预训练成本,而不会影响性能。在一般基准测试、长上下文任务和基于指令的推理上,它的表现与完全注意力模型相当甚至更好。
在月之暗面的论文里,也提出了一个在核心思想上非常一致的架构:MoBA。MoBA里有个像 “智能筛选员”一样的门控网络,它负责挑选与一个“块”最相关的 Top-K 个块,只对这些选中的块计算注意力。
杨植麟最初创办月之暗面受到关注的一个重要原因,是他的论文影响力和引用量,但K1.5论文之前,他最后一篇论文类的研究停留在2024年1月。
梁文锋虽然作为作者出现在DeepSeek最重要的模型技术报告里,但这些报告的作者名录几乎相当于DeepSeek的员工名录,几乎所有人都列在里面。而NSA的论文作者则只有几人。
由此也可以看出两家公司创始人对公司的重要性,并提供对深入了解DeepSeek和月之暗面技术路线的路径。
领取专属 10元无门槛券
私享最新 技术干货