首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

DeepSeek、月之暗面同一天更新论文,核心都是注意力机制

2月18日,DeepSeek和月之暗面几乎同时发布了他们各自最新的论文,而主题直接“撞车”——都是挑战Transformer架构最核心的注意力机制,让它能更高效处理更长的上下文。

更有趣的是,两家公司技术派明星创始人的名字出现在各自的论文和技术报告里。

与此前人们津津乐道的算法创新相比,DeepSeek这一次把手伸向了最核心的注意力机制(attention)的改造上。

Transformer是当下所有大模型繁荣的基础,但它的核心算法注意力机制依然有先天问题:拿读书做比喻,传统的“全注意力机制”为了理解和生成,会阅读文本里的每个词,并拿它与其他所有词作比较。这样导致处理文本越长算法越复杂,技术越卡,甚至崩溃。

DeepSeek最新发布的论文提到,NSA是一种与硬件一致且本机可训练的稀疏注意力机制,用于超快速的长上下文训练和推理。通过针对现代硬件的优化设计,NSA加快了推理速度,同时降低了预训练成本,而不会影响性能。在一般基准测试、长上下文任务和基于指令的推理上,它的表现与完全注意力模型相当甚至更好。

在月之暗面的论文里,也提出了一个在核心思想上非常一致的架构:MoBA。MoBA里有个像 “智能筛选员”一样的门控网络,它负责挑选与一个“块”最相关的 Top-K 个块,只对这些选中的块计算注意力。

杨植麟最初创办月之暗面受到关注的一个重要原因,是他的论文影响力和引用量,但K1.5论文之前,他最后一篇论文类的研究停留在2024年1月。

梁文锋虽然作为作者出现在DeepSeek最重要的模型技术报告里,但这些报告的作者名录几乎相当于DeepSeek的员工名录,几乎所有人都列在里面。而NSA的论文作者则只有几人。

由此也可以看出两家公司创始人对公司的重要性,并提供对深入了解DeepSeek和月之暗面技术路线的路径。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OuwL_9XJVZ35YqpjWSymRszg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券