部署DeepSeek模型,进群交流最in玩法!
立即加群
发布
社区首页 >专栏 >2025年2月的LLM最新排名中,Grok 3表现出色,逆势而上,而Claude 3.7 Sonnet则令人刮目相看,成绩突出!

2025年2月的LLM最新排名中,Grok 3表现出色,逆势而上,而Claude 3.7 Sonnet则令人刮目相看,成绩突出!

作者头像
福大大架构师每日一题
发布2025-03-06 23:32:09
发布2025-03-06 23:32:09
130
举报

过去一个月,AI 大模型领域的发展可用一词概括:变幻莫测。

最初,DeepSeek凭借其“性价比”优势迅速扩展到全球各地,随后引发了整个行业的激烈竞争。到了2月初,谷歌推出了Gemini 2.0系列模型。

在2月中旬,马斯克创办的 xAI 公司隆重推出了 Grok 3 模型,并且该模型免费对外开放。

在2月底,长时间没有动静的 Anthropic 公司正式推出了 Claude 3.7 Sonnet,这是全球首个混合架构的模型。

紧接着,到了2月的最后一天,OpenAI 发布了号称史上最大、最强的非思考模型——GPT-4.5。

今天,我将用这篇文章来记录一个波澜壮阔、风云变幻的月份。


在这次的 AI 大模型排名中,我们参考了两个常见的排行榜:LiveBench 和 LMSYS。

其中,LiveBench 更为纯粹客观,提供了干净的测试数据和公正的评分。该平台每月都会更新测试题目,内容包括最新的数学竞赛、arXiv论文、新闻和数据集,涉及数学、编程、推理和语言理解等多个领域,避免模型因训练数据的不洁而获得虚假的高分。LiveBench 的一大特色在于其问题的挑战性,顶级模型的准确率通常都低于70%,因此其评分相对更为可靠。

LMSYS 机器人竞技排行榜(Chatbot Arena)则更具主观性,是由加州大学伯克利分校开发的一个基于用户偏好的动态评分系统。该平台采用双模型匿名对战的方式,用户提出问题并对模型的回答进行投票,以选出更优的回复。这一过程通过 Elo 评分系统进行排名,至今已收集了超过270万次投票。这种评估方式更加关注模型在实际应用中的有效性,而不仅仅是对知识或智力的测试。


接下来我们将介绍2025年2月最新的 AI 大模型排名。

LiveBench

LiveBench 的一个显著特点是将非推理模型(例如 GPT-4o 和 DeepSeek-V3)与推理模型(如 o1 和 DeepSeek-R1)进行比较,而不进行特殊处理。

在最新的排名中,Claude 3.7 Sonnet-Thinking 模式成功超越了 o3-mini-high、o1、Grok 3-Thinking 和 DeepSeek-R1,位居榜首。

在非推理模型类别中,参数数量最多的 GPT-4.5 稳居第一,甚至超过了谷歌的推理模型 Gemini 2.0 Flash Thinking。紧随其后的是 Claude 3.7 Sonnet(非推理模式)和 Gemini 2.0 Pro。

值得一提的是,阿里通义团队在春节期间推出的 Qwen 2.5-Max 模型也入围榜单,表现优于几个月前发布的 DeepSeek-V3。

LMSYS

LMSYS 排行榜分为两个类别:综合排名和 StyleCtrl 排名。综合排名是根据模型的综合得分进行排序;而 StyleCtrl 排名则在综合得分的基础上,加入了风格控制的因素。通过调整响应长度和 Markdown 格式的使用等变量,旨在减少这些非核心因素对排名的影响,从而更真实地反映模型的实际能力。

我个人更倾向于查看 LMSYS 的 StyleCtrl 排名。

Upper-bound(UB)综合排名

在最新的综合排名中,GPT-4.5 的表现相对不佳,刚刚坐上第一名的宝座便被 Grok 3 挤了下来。Grok 3 以高达1412的得分位居榜首,其后依次是 GPT-4.5、Gemini 2.0 Pro、GPT-4o 和 DeepSeek-R1。

值得注意的是,无论是排名第一的 Grok 3 还是第二的 GPT-4.5,它们都有一个共同特点:模型的“情商”较高。LMSYS 的评分本身是基于真实用户的反馈,因此“情商”较高的模型获得更高分数也在情理之中。

StyleCtrl(Style Control)排名

在考虑了风格控制因素后,例如剔除回答的长度和格式等影响,排名的情况又有所不同。

此时,GPT-4.5 升至第一名,而 Grok 3 则下滑至第三位。同时,Claude 3.7 Sonnet 在 StyleCtrl 排行榜上的排名显著提升,跃升至第五名。

DeepSeek-R1 则跻身第三名。值得注意的是,DeepSeek-R1 的 API 价格极具优势,这使得它在质量和性价比方面表现十分出色。

最后,提供 LiveBench 和 LMSYS 排行榜的链接,感兴趣的朋友可以查看具体细节,例如各个模型的分类排名。

LiveBench:https://livebench.ai LMSYS:https://lmarena.ai/leaderboard

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 福大大架构师每日一题 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • LiveBench
  • LMSYS
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档