使用大模型问答,一般有两个选择:一是深度思考,一是快速回答。
快速回答就像人的“直觉”,为大模型提供了通用场景下的快速响应能力。
比如:
快上加快!今天,腾讯混元推出了自研的快思考模型Turbo S。(此前在元宝里已接入混元Turbo模型,用于快速回答用户问题)
此次升级,就是为了让用户拥有更好的大模型问答体验:吐字(回答)速度提升一倍,首字时延降低44%。(你刚说完问题,它已经准备好开头了)
大家直观感受一下↓↓↓
,时长00:44
接下来,混元Turbo S模型将逐步在腾讯元宝灰度上线,很快就会全量覆盖。
马上,大家就可以感受到元宝秒回信息的速度了~
对Turbo S感兴趣的同学,可以点击查看详细信息。
总结一下:
Turbo S 模型架构有技术创新
此次混元Turbo S 创新性地采用了Hybrid-Mamba-Transformer 融合模式,一方面发挥了Mamba 高效处理长序列的能力,另一方面也保留 Transformer 擅于捕捉复杂上下文的优势,最终构建了显存与计算效率双优的混合架构,这是工业界首次成功将Mamba架构无损地应用在超大型MoE模型上。
模型整体效果提升
通过长短思维链融合,腾讯混元Turbo S 在保持文科类问题快思考体验的同时,显著改进了理科推理能力,整体效果明显提升。
部署成本大幅下降
有效降低了传统Transformer结构的计算复杂度,减少了KV-Cache缓存占用,实现训练和推理成本的下降。定价上,Turbo S 输入价格为0.8元/百万token,输出价格为2元/百万tokens。
再总结一下:Turbo S 更好用,更快,成本更低。
开发者和企业用户也可以在腾讯云上通过API调用腾讯混元Turbo S,发布当日起一周内免费试用。(感兴趣的开发者和用户可以点这里)
本文系转载,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文系转载,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。