过去一个月,AI 大模型领域的发展可用一词概括:变幻莫测。
最初,DeepSeek凭借其“性价比”优势迅速扩展到全球各地,随后引发了整个行业的激烈竞争。到了2月初,谷歌推出了Gemini 2.0系列模型。
在2月中旬,马斯克创办的 xAI 公司隆重推出了 Grok 3 模型,并且该模型免费对外开放。
在2月底,长时间没有动静的 Anthropic 公司正式推出了 Claude 3.7 Sonnet,这是全球首个混合架构的模型。
紧接着,到了2月的最后一天,OpenAI 发布了号称史上最大、最强的非思考模型——GPT-4.5。
今天,我将用这篇文章来记录一个波澜壮阔、风云变幻的月份。
在这次的 AI 大模型排名中,我们参考了两个常见的排行榜:LiveBench 和 LMSYS。
其中,LiveBench 更为纯粹客观,提供了干净的测试数据和公正的评分。该平台每月都会更新测试题目,内容包括最新的数学竞赛、arXiv论文、新闻和数据集,涉及数学、编程、推理和语言理解等多个领域,避免模型因训练数据的不洁而获得虚假的高分。LiveBench 的一大特色在于其问题的挑战性,顶级模型的准确率通常都低于70%,因此其评分相对更为可靠。
LMSYS 机器人竞技排行榜(Chatbot Arena)则更具主观性,是由加州大学伯克利分校开发的一个基于用户偏好的动态评分系统。该平台采用双模型匿名对战的方式,用户提出问题并对模型的回答进行投票,以选出更优的回复。这一过程通过 Elo 评分系统进行排名,至今已收集了超过270万次投票。这种评估方式更加关注模型在实际应用中的有效性,而不仅仅是对知识或智力的测试。
接下来我们将介绍2025年2月最新的 AI 大模型排名。
LiveBench 的一个显著特点是将非推理模型(例如 GPT-4o 和 DeepSeek-V3)与推理模型(如 o1 和 DeepSeek-R1)进行比较,而不进行特殊处理。
在最新的排名中,Claude 3.7 Sonnet-Thinking 模式成功超越了 o3-mini-high、o1、Grok 3-Thinking 和 DeepSeek-R1,位居榜首。
在非推理模型类别中,参数数量最多的 GPT-4.5 稳居第一,甚至超过了谷歌的推理模型 Gemini 2.0 Flash Thinking。紧随其后的是 Claude 3.7 Sonnet(非推理模式)和 Gemini 2.0 Pro。
值得一提的是,阿里通义团队在春节期间推出的 Qwen 2.5-Max 模型也入围榜单,表现优于几个月前发布的 DeepSeek-V3。
LMSYS 排行榜分为两个类别:综合排名和 StyleCtrl 排名。综合排名是根据模型的综合得分进行排序;而 StyleCtrl 排名则在综合得分的基础上,加入了风格控制的因素。通过调整响应长度和 Markdown 格式的使用等变量,旨在减少这些非核心因素对排名的影响,从而更真实地反映模型的实际能力。
我个人更倾向于查看 LMSYS 的 StyleCtrl 排名。
Upper-bound(UB)综合排名
在最新的综合排名中,GPT-4.5 的表现相对不佳,刚刚坐上第一名的宝座便被 Grok 3 挤了下来。Grok 3 以高达1412的得分位居榜首,其后依次是 GPT-4.5、Gemini 2.0 Pro、GPT-4o 和 DeepSeek-R1。
值得注意的是,无论是排名第一的 Grok 3 还是第二的 GPT-4.5,它们都有一个共同特点:模型的“情商”较高。LMSYS 的评分本身是基于真实用户的反馈,因此“情商”较高的模型获得更高分数也在情理之中。
StyleCtrl(Style Control)排名
在考虑了风格控制因素后,例如剔除回答的长度和格式等影响,排名的情况又有所不同。
此时,GPT-4.5 升至第一名,而 Grok 3 则下滑至第三位。同时,Claude 3.7 Sonnet 在 StyleCtrl 排行榜上的排名显著提升,跃升至第五名。
DeepSeek-R1 则跻身第三名。值得注意的是,DeepSeek-R1 的 API 价格极具优势,这使得它在质量和性价比方面表现十分出色。
最后,提供 LiveBench 和 LMSYS 排行榜的链接,感兴趣的朋友可以查看具体细节,例如各个模型的分类排名。
LiveBench:https://livebench.ai LMSYS:https://lmarena.ai/leaderboard