Loading [MathJax]/jax/input/TeX/config.js
部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【直播笔记】十问腾讯混元快思考Turbo S

【直播笔记】十问腾讯混元快思考Turbo S

作者头像
腾讯开源
发布于 2025-03-13 14:00:43
发布于 2025-03-13 14:00:43
1830
举报

腾讯混元新一代旗舰快思考模型——Turbo S已正式推出,区别于Deepseek R1、混元T1等需要“想一下再回复”的慢思考模型,混元Turbo S能够“秒回”,拥有直觉,可以解决更多应用问题。

除了快,作为腾讯混元最新旗舰模型,混元Turbo S在技术上还有哪些创新?为什么采用了融合的Hybrid Mamba Transformer结构?对于大模型的快与慢的优劣势,技术团队都有哪些思考?在这场对话中,混元团队带来全面的解读。

一、 混元Turbo S有哪些特点?

Turbo 是涡轮增压,S可以理解为Speed, 动力更强,速度更快。它有三个特点: 第一个速度更快,第二成本更低,第三效果更好。

第一,速度更快,相比上一代 Turbo 模型,首字响应时间降低44%,吞吐提升100%。

成本更低,云上API定价100万token输出两元,相比于上一代Turbo 降低数倍。

第三,效果更好。对比上一代 Turbo ,整体链路做了优化,包括训练数据、模型结构、MoE参数效率等。尤其是通过长短思维链的融合,让模型在数学和代码这种需要长思考的场景下也能够表现更好。

二、 快思考和慢思考模型的关键区别是什么?

常见的长链模型,包括DeepSeek的R系列、OpenAI的O系列;短链模型包括OpenAI的GPT4或者4.5以及混元的Turbo S等。

之所以要做这个短链模型,是因为团队通过分析和观察,发现用户90%的请求,都可以通过大模型的直觉,不需要深度思考就可以精准、简洁的给出答案。

所以对这些请求,模型应该更快、更准地给出回复,剩下的10%请求,模型则应该做一些深度的思考,甚至做一些反思,从而给出更符合需求的答案。

除了速度更快,成本更低,其实慢思考的数据也可以融入到快思考的模型中去,比如Turbo S,已经把慢思考数据加到模型训练中,使得模型对于那10%需要深入思考才能解答的问题,也能比较精准的回答。

三、Turbo S 模型架构有哪些特别的设计?为什么会使用Mamba?

Turbo S架构上主要创新点之一是Hybrid Mamba Transformer。

现在业界更多是用Transformer架构,也就是 Full Attention,它本身有三大缺陷:

第一,计算复杂度高,序列维度呈平方级关系,所以不管是在训练还是推理的时候,复杂度都很高。

第二,推理时需要KV Cache,而且KV Cache随着序列长度增加,呈线性增加,所以部署成本相对高。

第三,预测时间长,这一架构下,模型每一步的预测都会叠加KV Cache,所以每一步的预测都跟序列呈线性关系,导致越往后,生成就越慢,但对Mamba来说,尤其是对于Mamba Linear Attention,每一步的预测都是O(1)复杂度的。

*O(1) 是常数复杂度,表示无论输入数据量多大,算法所需的执行时间或内存空间都保持固定。这里的 "1" 代表常数,而非具体的数值,表示操作次数或资源消耗不随输入规模 n 变化。

所以对于模型来说,需要更高效的Attention,甚至要做Linear Attention,在这一方向上,此前业界已有一些方案和探索。比如,Sliding Attention、MoBA,还有DeepSeek前段时间放出的NSA,其实NSA和MoBA一定程度上是相似的,都是稀疏的Attention。同时,稀疏的Attention也有好几种,包括Hierarchicol的Attention,包括Block-wise,就是从这个Block中去做Ranking,选出一些TOP的,去做Attention。以及这几种做了一些组合。

从某种意义上来说,这些方向都是压缩,通过压缩降低计算复杂度。Mamba则是全新的结构,是State Space Model,并在这上面做了优化,尤其是Mamba 2本身可以理解为一种kernel base的线性Attention,它里边有三个比较重要的Metrics,一个C,一个是B,一个是X。C可以类比于Attention的Q,B可以类比为Full Attention的K,X可以类比于Full Attention的V,里面还有一个矩阵叫A,A矩阵是可以不断的对上下文的信息去做累乘的,能记住压缩的上下文信息。

举例来说,对于传统Full Attention,上下文是“我有一个苹果”,要预测下一个“手机”这个词,进而得到最终的完整表述”我有一个苹果手机”。Full Attention是需要看到前面所有的词去进行预测的,但是对于Mamba来说,因为信息的压缩,它只需要记住上一个状态信息。

不过,这种压缩的表示如果纯用Mamba本身,会有很大的信息损失,尤其在做长输入和长输出的场景下,所以要做Hybrid。

通俗理解,线性Attention机制实际用了一组表,或者一个笔记本去记录上下文信息,所以需要很多计算、存储资源和通信开销。而Hybrid Mamba Transformer实际上是用了一张小卡片,它的容量很小,可以通过不断在小卡片里计算最重要的注意力方面的一些信息,然后不断往前传递,在这种情况下,整个注意力的计算信息复杂度、计算复杂度,存储的消耗都非常低。

总体来看,Mamba 跟Full Attention的组合有三个变量。第一个是要引入多少比例的Full attention? 第二个变量是Full attention应该在哪些层出现? 第三个变量就是 Mamba 跟Full attention应该用什么样的方式进行组合?

围绕这三个变量,混元Turbo S做了非常多的Scaling law探索,最终的效果能够做到不管在长文还是短文的场景下(长文也包括长输入和长输出),都能打平甚至超过 Full Attention 的 Transforme 效果。

四、Turbo S 在工程上做了哪些优化?

Mamba结构对于工程来说比较新,所以要从设计上做很多新的东西来适配。

对于训练来说,尤其是训练长文,一般会用到一个叫“序列并行“的技术,这时Full Attention和Mamba会有特别大的区别——Full Attention 需要处理所有token之间的关系,Mamba只需要把上一个token的状态传给下一个token的状态。这样的话就可以从工程上节省很多的通信以及计算资源。

推理上Mamba结构也非常友好。要做工程优化,首先Full Attention每个token需要维护一个KV cache,Mamba因为只有最后一个状态,所以就像此前说的,只需要维护“小卡片”。

五、线性注意力机制和MLA的区别是什么,有什么优势?

MLA和线性Attention走的是两个路线。一般来说,推理的时候一个比较重的开销是 KV cache 要做处理。MLA从算法角度做了对于KV cache的节省,实际上是缓解了推长度较长的长文 KV cache 的压力问题。如果用Mamba 结构,或者Linear Attention结构的话只需要处理小卡片,这样就没有KV cache 的压力。所以从技术路线上,二者走了两个不同的演进方向,不过都是为了解决KV cache的问题。

相比此前的另一个关注度较高的注意力机制MHA,MLA节省了90%的KV cache,但是Mamba Hybrid相比MLA还能降低百分之六七十的KV cache。这些都是面对算力瓶颈,在工程上极致优化的结果。

六、腾讯混元在MoE路线上做了哪些探索?

腾讯混元团队早在2022年的时候就已经研发了千亿和万亿规模的MoE模型,2022年5月在CLUE榜单上拿到了第一名的成绩,第一版大规模MoE模型上线是在2023年底,参数规模达到万亿。

MoE结构特殊,激活参数少,但总参数大。这种总参数特别大的模型训练和部署成本较高,所以提升参数效率非常重要。在这方面,腾讯混元做了比较多的探索:

首先是Share专家,腾讯混元早在2023年的模型上就探索了Share专家结构,让所有的 token 能够走一个 Share 的专家,同时会走一些分发的路由专家。这样的好处是让专家的差异化更大,同时,专家训练更加稳定,因为有更多的token可以走到这个通用的、Share的专家,它的梯度会更加稳定一些。

第二点,训练稳定性。训练稳定性对MoE非常重要,涉及到MoE的一个机制,叫TopK路由,它有一个丢词的问题,丢词就会影响训练的稳定性。丢词跟drop out不一样,drop out 是以一定比例的drop掉一些feature。但是会在最终输出的时候做一个 rescale,比如说丢掉10%的feature,最终会除以0.9,分布是不会变的。但drop token是随机的过程,会影响输出的feature分布,所以混元也提出了补偿路由的机制,能够把丢词率从百分位降到了万分位,能够极大保证训练的稳定性。

在MoE的研发上,腾讯混元始终坚持scaling law先行,探索了非常多的scaling law,比如batch size跟learning rate这类超参数的情况。早在2018年的时候,OpenAI已经做过SGD优化器下的超参数探索,它的结论就是learning rate跟batch size始终呈正相关关系,但现在大家训练基本没用SGD优化器,都是Adam优化器。Adam优化器的超参数探索,在腾讯混元团队做之前业内是没有的,团队在这个地方做了一些深入的研究和理论推导。得到的结论是,随着batch side增加,learning rate应该是先增加后降低,这是一个非单调的过程。

七、在scaling law上有哪些新发现?

其他方面的scaling law,包括模型的总参数scaling law,腾讯混元也做了很多探索。关于模型能训练多少数据得到的结论是:在算力一定的情况下,模型的训练数据与激活参数是一个一百多倍的关系。同时也发现,训练更多倍数的数据之后,这个模型的能力还会持续提升。哪怕只是增加训练两,三倍的数据,模型的能力还是会持续提升的。所以数据的scaling law还没有结束。

再有就是关于细粒度专家scaling law,在专家数量以及激活专家数量上做了一些scaling law的研究,发现当把专家拆的更细之后,模型的Performance和上限就会变高。但是也带来另一个问题,就是把专家拆的更细,比如把激活一个专家变成了激活8个、16个,甚至更多的专家,带来的all to all通信的成本就会更高。这对训练的infer的挑战就会更大。

八、 为什么低精度下,训练数据量越大,模型效果不升反降?

大规模的MoE有两个挑战,一个是计算的时候需要低精度来处理,另外一个是通信的时候也要低精度来处理。

先简单介绍一下低精度训练是什么。在模型训练过程当中,中间有一些计算是可以采用更低的精度来进行,这样不会影响模型效果,它会带来两个好处,一个是用低精度来做存储,存储开销会减少;另外一个是用低精度来计算的话,硬件本身能提供的算力也会更大,这样对于整个Infra以及整个模型的迭代速度会非常友好。

但是它也带来一个问题,模型效果可能会受到一定影响。在开展MoE这个低精度训练之前,混元团队做了很多准备工作,比如探索低精度训练对这个模型效果有什么样的影响。然后发现,过去认为的训练数据量越大模型效果会越来越好不一定都是对的,通过大量实验,我们发现在低精度训练下,数据量增加到某一个阈值的时候,会导致模型效果不升反降,就是甚至是有害的。这个是scaling law的一个新的发现。

九、 如何实现长短链融合?这是未来模型迭代的一大重要方向吗?

Turbo S做了长短思维链的融合,对于能够直接回答的问题,它非常快,非常简洁。同时对于那些难的,需要反复推理和反思的问题,也能够得到更精准的答案。

腾讯混元T1是一个擅长长思考推理的模型,Turbo S 通过T1能够得到一些相对长链的数据,再把长链的数据跟短链的数据做了融合,经过一阶段的训练之后做一些拒绝采样。拒绝采样有的是根据正确性,有的是根据长度。正确性方面,会有一些基于规则的方法,也有一些reward model base的方法。

经过这个设计之后,模型整体的能力会提升很大的一个台阶。尤其是对于数学的、代码的,还有逻辑的,需要长推理的任务表现会更好。关于长链的这个模型和短链模型,业界有两种思路,Anthropic 更多的是做长短链的融合,他们没有单独的存储模型。OpenAI既有短链的又长链的,长链的就是O系列,O1到O3,然后短链的就是4和4.5这种系列的短链模型,腾讯混元也是两种模型的都有,短链的模型是可以很好的去融合长链的这种能力,腾讯混元基于Turbo S的T1模型也将很快发布。

十、 在哪里可以体验混元Turbo S模型?

当前,开发者和企业用户已经可以在腾讯云上通过 API调用腾讯混元 Turbos。(腾讯混元Turbo S模型API试用申请: https://cloud.tencent.com/apply/p/i2zophus2x8)。

定价上,TurboS输入价格为0.8元/百万tokens,输出价格为2元/百万tokens,相比前代混元Turbo 模型价格下降数倍。

腾讯元器、腾讯文档、搜狗输入法、QQ 浏览器等多个腾讯业务和场景均已接入混元Turbo S。在C端,腾讯元宝已上线混元 Turbo S,用户在元宝内选择“Hunyuan”模型并关闭深度思考即可体验使用,扫描下方二维码即刻体验。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯开源 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【直播笔记】十问腾讯混元快思考模型Turbo S
除了快,作为腾讯混元最新旗舰模型,混元Turbo S在技术上还有哪些创新?为什么采用了融合的Hybrid Mamba Transformer结构?对于大模型的快与慢的优劣势,技术团队都有哪些思考?在这场对话中,混元团队带来全面的解读。
腾讯云开发者
2025/03/19
1300
【直播笔记】十问腾讯混元快思考模型Turbo S
腾讯混元新一代快思考模型 Turbo S 发布
区别于 Deepseek R1、混元T1等需要“想一下再回答”的慢思考模型,混元 Turbo S 能够实现“秒回”,更快速输出答案,吐字速度提升一倍,首字时延降低44%。
腾讯开源
2025/02/28
4810
腾讯混元新一代快思考模型 Turbo S 发布
腾讯混元 TurboS 技术报告首次全公开:560B 参数混合 Mamba 架构,自适应长短链融合
随着大型语言模型(LLM)的飞速发展,模型能力与效率的平衡成为了前沿研究的关键议题。腾讯混元团队最新推出的混元 TurboS 模型,是一款新颖的超大型 Hybrid Transformer-Mamba 架构 MoE 模型。该模型通过 Mamba 架构在长序列处理上的卓越效率与 Transformer 架构在上下文理解上的固有优势的有机协同,实现了性能与效率的精妙平衡。
深度学习与Python
2025/05/25
2220
腾讯混元 TurboS 技术报告首次全公开:560B 参数混合 Mamba 架构,自适应长短链融合
刚刚,腾讯混元开源两大核心模型!
腾讯混元 Large 的模型总参数量 389B,激活参数量 52B ,上下文长度高达256K,是当前业界参数规模最大、效果最好的 MoE 模型,同时通过技术的优化,也更适配开源框架的精调和部署,具有较强的实用性。
腾讯云开发者
2024/11/07
4250
刚刚,腾讯混元开源两大核心模型!
腾讯混元、英伟达都发混合架构模型,Mamba-Transformer要崛起吗?
在众多非 Transformer 架构中,Mamba 无疑是声量较大且后续发展较好的一个。然而,与最初发布时那种仿佛「水火不容」的局面不同,最近一段时间,这两种架构似乎正在走向融合。
机器之心
2025/03/27
1060
腾讯混元、英伟达都发混合架构模型,Mamba-Transformer要崛起吗?
最新上线!吐字快、秒回你的大模型,即将装进元宝
快上加快!今天,腾讯混元推出了自研的快思考模型Turbo S。(此前在元宝里已接入混元Turbo模型,用于快速回答用户问题)
小腾资讯君
2025/03/03
1320
腾讯混元又来开源,一出手就是最大MoE大模型
随着人工智能技术的快速发展,大型语言模型(LLMs)在自然语言处理、计算机视觉和科学任务等领域取得了显著进展。然而,随着模型规模的扩大,如何在保持高性能的同时优化资源消耗成为关键挑战。为了应对这一挑战,腾讯混元团队率先采用混合专家(MoE)模型架构,最新发布的 Hunyuan-Large(Hunyuan-MoE-A52B)模型,是目前业界已经开源的基于 Transformer 的最大 MoE 模型,拥有 389B 总参数和 52B 激活参数。
机器之心
2025/02/14
1870
腾讯混元又来开源,一出手就是最大MoE大模型
腾讯混元推出深度思考模型T1,可通过腾讯云API调用
该模型以腾讯于3月初发布的新一代快思考模型混元Turbo S为基座打造,是一款能秒回、吐字快、擅长超长文处理的强推理模型,性能保持业界领先。
腾讯云AI
2025/03/27
2170
腾讯混元推出深度思考模型T1,可通过腾讯云API调用
腾讯混元T1正式版发布
2025年3月21日,腾讯正式推出自研深度思考模型混元T1正式版。这款基于Hybrid-Mamba-Transformer融合架构的推理大模型,不仅以“首字秒出、吐字速度60-80 tokens/s”刷新行业效率标杆,更在数学、逻辑推理等硬核领域展现了逼近人类专家的能力。其发布标志着大模型技术从“通用能力竞赛”迈入“垂直场景效能革命”的新阶段。
不惑
2025/03/27
2830
腾讯混元T1正式版发布
目前最大最好的MoE开源模型,腾讯开源了混元Hunyuan-large和3D模型
“ 混元大模型(Hunyuan-large)正式发布,可免费商用。基于MoE架构,拥有389B参数规模,支持256K的上下文。在多项评测中超越了LLama3.1。混元大模型采用了高质量合成数据增强训练、专家特定的规模定律等创新技术。”
技术人生黄勇
2024/11/07
3250
目前最大最好的MoE开源模型,腾讯开源了混元Hunyuan-large和3D模型
万字长文详解DeepSeek核心技术
在今年的春节期间,DeepSeek 火出了圈。凭借 DeepSeek-V3 与 DeepSeek-R1 的创新技术和卓越表现,DeepSeek 迅速成为了行业内外的焦点。不管是技术专家还是普通用户,都对 DeepSeek 赞不绝口。我们特别准备了这篇技术科普文章,期望无论你是不是技术同学,都能够读懂 DeepSeek。
腾讯云开发者
2025/02/18
2K0
万字长文详解DeepSeek核心技术
探秘腾讯混元大模型深度思考T1:AI领域的新突破
在人工智能(AI)领域,技术的突破总是能引发广泛的关注和讨论。2025年3月21日深夜,腾讯震撼推出了自研深度思考模型混元T1正式版,这一里程碑式的成果再次将AI的发展推向了新的高度。混元T1正式版以其卓越的性能和独特的技术创新,在AI领域树立了新的标杆,引发了业界的广泛瞩目。
Front_Yue
2025/03/22
2250
探秘腾讯混元大模型深度思考T1:AI领域的新突破
PPT汇总:DeepSeek核心技术前世今生
因为本文是小白方式,尽可能讲解思路为主,所以技术上涉及到的公式部分不会细讲哦。公式部分如有时间会单开文章细细讲解。
腾讯云开发者
2025/03/06
5750
PPT汇总:DeepSeek核心技术前世今生
腾讯混元大模型:技术演进、生态突围与开发者机遇
2024年,全球大模型竞赛已从参数规模的"军备竞赛",转向技术实用性、生态渗透率与商业价值的综合较量。在这场战役中, 腾讯混元 大模型凭借Hybrid-Mamba-Transformer架构创新、全场景AI助手矩阵和开源生态协同三大战略,正快速构建从技术到落地的完整闭环。本文将深度解析混元大模型的技术演进路径、行业应用场景,并为开发者揭示参与生态建设的实战机遇。
Front_Yue
2025/03/13
3110
腾讯混元大模型:技术演进、生态突围与开发者机遇
DeepSeek和月之暗面的论文撞车了!!
昨天下午,DeepSeek 发布了一篇新论文,提出了一种改进版的注意力机制 NSA;加上还有创始人兼 CEO 梁文锋亲自参与,一时之间吸引眼球无数,参阅报道《 刚刚!DeepSeek团队丢出注意力新机制重磅论文》。
小白学视觉
2025/02/20
1350
DeepSeek和月之暗面的论文撞车了!!
注意力机制进化史:从MHA到MoBA,新一代注意力机制的极限突破!
MLA主要通过优化KV-cache来减少显存占用,从而提升推理性能。直接抛出这个结论可能不太好理解。首先我们来看下,对于生成模型,一个完整的推理阶段是什么样的,推理性能上有什么问题。这部分内容主要来自:
致Great
2025/02/21
4850
注意力机制进化史:从MHA到MoBA,新一代注意力机制的极限突破!
腾讯混元 & 东京工业大学 无损 KV 缓存压缩至2% ,护航大型语言模型推理!
大型语言模型(LLMs)已在各个领域广泛应用并得到验证,改变了作者收集和处理信息的方式,并影响了作者的日常生活。Driess等人(2023年);Zhang等人;Zhu等人;Wang等人(2024年)。最近,LLM的长文本推理和理解能力逐渐被认为对其能力至关重要,引起了越来越多的关注。开源和闭源LLM现在都在努力适应更长的 Token 长度,Achiam等人(2023年);DeepSeek-AI(2024年)。然而,这种长度扩展对LLM提出了关键的效率挑战,特别是与日益增长的键值(KV)缓存内存问题,这给更强大的LLM的部署带来了巨大的障碍。KV缓存技术,涉及从解码器仅有的Transformer多头自注意力(MHA)块(Vaswani等人,2017年)中缓存和重用已计算的键值向量,在大多数解码器仅有的LLM中广泛采用,以加速模型推理速度。
未来先知
2024/12/27
2650
腾讯混元 & 东京工业大学 无损 KV 缓存压缩至2% ,护航大型语言模型推理!
万字长文解构DeepSeek V1/V2/V3/R1进化史:从算法革命到推理涌现!
在今年的春节期间,DeepSeek 火出了圈。凭借 DeepSeek-V3 与 DeepSeek-R1 的创新技术和卓越表现,DeepSeek 迅速成为了行业内外的焦点。不管是技术专家还是普通用户,都对 DeepSeek 赞不绝口。我们特别准备了这篇技术科普文章,期望无论你是不是技术同学,都能够读懂 DeepSeek。
腾讯云开发者
2025/02/27
8680
万字长文解构DeepSeek V1/V2/V3/R1进化史:从算法革命到推理涌现!
腾讯混元宣布大语言模型和3D模型正式开源!
11月5日,腾讯混元宣布最新的MoE模型“混元Large“以及混元3D生成大模型“ Hunyuan3D-1.0”正式开源,支持企业及开发者精调、部署等不同场景的使用需求,可在HuggingFace、Github等技术社区直接下载,免费可商用。
腾讯开源
2025/02/05
5950
腾讯混元宣布大语言模型和3D模型正式开源!
AI智能体研发之路-模型篇(二):DeepSeek-V2-Chat 训练与推理实战
5月6日私募基金幻方发布DeepSeek-V2,千亿级模型,每百万Tokens仅需1元-2元。5月15日,字节发布白菜价的豆包大模型,5月21日阿里、百度相机大幅下调甚至免费开放自家商用模型接口,大模型价格战正式打响。而被誉为大模型价格屠夫的“DeepSeek-V2”到底是怎么个事儿,是否可以进行训练和推理,今天我们来展开讲一讲。
LDG_AGI
2024/08/13
1.5K0
AI智能体研发之路-模型篇(二):DeepSeek-V2-Chat 训练与推理实战
推荐阅读
相关推荐
【直播笔记】十问腾讯混元快思考模型Turbo S
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档