Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >数学、代码能力国内前三,腾讯混元T1最新测评成绩出炉

数学、代码能力国内前三,腾讯混元T1最新测评成绩出炉

作者头像
腾讯开源
发布于 2025-04-04 01:47:31
发布于 2025-04-04 01:47:31
1260
举报

中文大模型测评基准SuperCLUE 发布了数学推理和代码能力两项测评的最新成绩。

代码能力方面:腾讯混元T1在项目级代码生成中以77.94分排行国内第二, 领先第三名的QwQ-32B 1.39 分。

图片
图片

数学推理方面:腾讯混元T1 以87.31分居国内第二,总分领先GPT o1 、Claude 等海外头部模型。

图片
图片

数学推理与代码能力作为评估推理模型的两大核心维度,本次测评:

代码能力以项目级代码生成 SuperCLUE-Project为测评基准,涵盖功能完整性、代码质量、用户体验多个维度,涉及游戏开发、工具和管理系统等5大类应用场景。

数学推理以全国高中数学竞赛测评集MathCLUE为基准,涵盖平面几何、代数、初等数论以及组合问题4大维度,每个维度之下有数个子维度,全面考察大模型在数学推理任务的综合表现。

腾讯自研的深度推理模型T1正式版于 3 月 21 日发布,吐字快、能秒回,还擅长超长文处理,已经在腾讯元宝IMA等应用上线,并支持通过腾讯云API 调用。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯开源 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
腾讯混元推出深度思考模型T1,可通过腾讯云API调用
该模型以腾讯于3月初发布的新一代快思考模型混元Turbo S为基座打造,是一款能秒回、吐字快、擅长超长文处理的强推理模型,性能保持业界领先。
腾讯云AI
2025/03/27
2250
腾讯混元推出深度思考模型T1,可通过腾讯云API调用
腾讯混元,又拿第一了!
刚刚,中文大模型测评基准SuperCLUE发布《中文大模型基准测评2024年8月报告》:
腾讯云AI
2024/09/06
2750
腾讯混元,又拿第一了!
腾讯元宝「双模」更新:最新DeepSeekV3+混元T1正式版,一次配齐
刚刚,腾讯元宝完成重磅更新:同时接入DeepSeek V3-0324最新版(距离该模型发布开源一天)和深度思考模型混元T1正式版。
小腾资讯君
2025/03/27
1.2K0
腾讯混元T1正式版发布
2025年3月21日,腾讯正式推出自研深度思考模型混元T1正式版。这款基于Hybrid-Mamba-Transformer融合架构的推理大模型,不仅以“首字秒出、吐字速度60-80 tokens/s”刷新行业效率标杆,更在数学、逻辑推理等硬核领域展现了逼近人类专家的能力。其发布标志着大模型技术从“通用能力竞赛”迈入“垂直场景效能革命”的新阶段。
不惑
2025/03/27
2930
腾讯混元T1正式版发布
腾讯混元新一代快思考模型 Turbo S 发布
区别于 Deepseek R1、混元T1等需要“想一下再回答”的慢思考模型,混元 Turbo S 能够实现“秒回”,更快速输出答案,吐字速度提升一倍,首字时延降低44%。
腾讯开源
2025/02/28
4930
腾讯混元新一代快思考模型 Turbo S 发布
腾讯混元进入全球大模型权威榜单
跟其他测评不一样,Chatbot Arena 的测评人是C端用户——用户在平台上以匿名方式与多个模型互动,然后投票决定哪个模型更好,从而根据分数生成排行榜。这种测评也被看成是大模型直接PK的竞技场,简单直接。
腾讯开源
2025/03/21
2160
腾讯混元进入全球大模型权威榜单
探秘腾讯混元大模型深度思考T1:AI领域的新突破
在人工智能(AI)领域,技术的突破总是能引发广泛的关注和讨论。2025年3月21日深夜,腾讯震撼推出了自研深度思考模型混元T1正式版,这一里程碑式的成果再次将AI的发展推向了新的高度。混元T1正式版以其卓越的性能和独特的技术创新,在AI领域树立了新的标杆,引发了业界的广泛瞩目。
Front_Yue
2025/03/22
2270
探秘腾讯混元大模型深度思考T1:AI领域的新突破
腾讯混元、英伟达都发混合架构模型,Mamba-Transformer要崛起吗?
在众多非 Transformer 架构中,Mamba 无疑是声量较大且后续发展较好的一个。然而,与最初发布时那种仿佛「水火不容」的局面不同,最近一段时间,这两种架构似乎正在走向融合。
机器之心
2025/03/27
1080
腾讯混元、英伟达都发混合架构模型,Mamba-Transformer要崛起吗?
腾讯混元大模型升级:新增“文生图”,代码能力大幅提升
10月26日,腾讯宣布,腾讯混元大模型迎来全新升级,并正式对外开放“文生图”功能,展示了其在图像自动生成领域的领先能力。升级后的腾讯混元中文能力整体超过GPT3.5,代码能力大幅提升20%,达到业界领先水平。
混元
2023/10/26
1890
深入了解腾讯混元大模型:代码能力实践与未来发展趋势
大家好,我是腾讯云开发者社区的 Front_Yue,本篇文章将带领大家一起聊聊关于腾讯混元大模型的那些事。
Front_Yue
2024/01/23
4662
深入了解腾讯混元大模型:代码能力实践与未来发展趋势
AI基准测评(下):视频生成、代码能力、逻辑推理,AI是否已经超越人类?
知乎AI产品“直答”正式上线!文心一言4.0 Turbo来袭,可为农民提供专业指导!|AI日报
可信AI进展
2024/07/03
3190
腾讯混元宣布大语言模型和3D模型正式开源!
11月5日,腾讯混元宣布最新的MoE模型“混元Large“以及混元3D生成大模型“ Hunyuan3D-1.0”正式开源,支持企业及开发者精调、部署等不同场景的使用需求,可在HuggingFace、Github等技术社区直接下载,免费可商用。
腾讯开源
2025/02/05
6210
腾讯混元宣布大语言模型和3D模型正式开源!
腾讯混元 TurboS 技术报告首次全公开:560B 参数混合 Mamba 架构,自适应长短链融合
随着大型语言模型(LLM)的飞速发展,模型能力与效率的平衡成为了前沿研究的关键议题。腾讯混元团队最新推出的混元 TurboS 模型,是一款新颖的超大型 Hybrid Transformer-Mamba 架构 MoE 模型。该模型通过 Mamba 架构在长序列处理上的卓越效率与 Transformer 架构在上下文理解上的固有优势的有机协同,实现了性能与效率的精妙平衡。
深度学习与Python
2025/05/25
2680
腾讯混元 TurboS 技术报告首次全公开:560B 参数混合 Mamba 架构,自适应长短链融合
国内开源第一!百川开源大模型Baichuan-13B评测揭晓|SuperCLUE
百川智能团队继6月发布了7B预训练底座模型后,前段时间又最新开源了支持商用的13B模型(包括预训练底座模型Baichuan-13B-Base和chat对齐模型Baichuan-13B-Chat)。
新智元
2023/08/07
1.1K0
国内开源第一!百川开源大模型Baichuan-13B评测揭晓|SuperCLUE
腾讯混元大模型代码能力全面升级,体验实践赢 Airpods
国产大模型进入长跑期,从参数至上转向实用优先。 9月7日,在2023腾讯全球数字生态大会上,腾讯混元大模型正式亮相,并宣布通过腾讯云对外开放。到目前,腾讯已有上
腾讯云开发者社区
2023/12/18
1.8K8
腾讯大模型战略全景亮相
那时,企业刚开始摸索,关心的是能不能用、用在哪儿。一年后,问题变得更具体:大模型如何理解业务?AI如何融入工作流程?
小腾资讯君
2025/05/22
2550
业内首次! 全面复现DeepSeek-R1-Zero数学代码能力,训练步数仅需其1/10
OpenAI 的 o1 系列和 DeepSeek-R1 的成功充分证明,大规模强化学习已成为一种极为有效的方法,能够激发大型语言模型(LLM) 的复杂推理行为并显著提升其能力。
机器之心
2025/04/24
1570
业内首次! 全面复现DeepSeek-R1-Zero数学代码能力,训练步数仅需其1/10
OpenAI o1不太行?国产模型 PK OpenAI o1,高难度数学和算法竞赛能力究竟谁更胜一筹?
在当今人工智能迅猛发展的浪潮中,大模型的竞争愈发激烈,尤其是推理模型领域,成为众多研究与评测的焦点。OpenAI 发布的 o1 系列模型曾掀起大模型革新的热潮,深度学习模型在解决复杂问题上的能力日益提升,特别是在数学、物理等科学领域的应用中取得了显著成就。而国产模型也在不断崛起,试图在这一领域占据重要地位。各类新型评测社区的出现,为模型的综合能力的评估提供了参考,推动着模型的不断优化与创新。
AGI-Eval评测社区
2025/03/21
1020
OpenAI o1不太行?国产模型 PK OpenAI o1,高难度数学和算法竞赛能力究竟谁更胜一筹?
DeepSeek-V3深夜惊爆上新!代码数学飙升剑指GPT-5,一台Mac可跑
新模型版本为DeepSeek-V3-0324,参数量为6850亿,相较上个版本参数增幅不大(6710亿)。
新智元
2025/03/27
1180
DeepSeek-V3深夜惊爆上新!代码数学飙升剑指GPT-5,一台Mac可跑
汤道生详解AI 思考:腾讯要打造「好用的AI」
今天举办的腾讯全球数字生态大会上海峰会上,围绕大模型的研发与应用,腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生详细解读了对于 AI的思考和业务最新进展。
小腾资讯君
2025/03/19
2120
推荐阅读
相关推荐
腾讯混元推出深度思考模型T1,可通过腾讯云API调用
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档