跟其他测评不一样,Chatbot Arena 的测评人是C端用户——用户在平台上以匿名方式与多个模型互动,然后投票决定哪个模型更好,从而根据分数生成排行榜。这种测评也被看成是大模型直接PK的竞技场,简单直接。
这是腾讯混元旗舰模型首次入围这一榜单,相信这只是一个开始,未来我们也有信心获得更好的成绩。
今年以来,腾讯混元大模型快速迭代。不久推出最新版混元Turbo S模型,这一模型在中文基础能力上的表现同样抢眼。
3月18日发布的《中文大模型测评基准SuperCLUE 3月报告》中,腾讯混元位列基础模型国内第二,综合实力稳居国内大模型第一梯队。
在模型象限中,腾讯混元应用能力排名国内第一,在文本理解与创作、指令遵循以及Agent能力等多个维度刷新最新成绩。
最后,有个小剧透,我们全新的推理模型T1,要来了。
本周五晚,直播间见。
加微信进群即可了解更多“腾讯开源新动态”!
添加微信请备注:腾讯开源
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有