首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Gemini 2.5 Pro 再升级!竞技场分数创新高+思考预算,更强 Kingfall 在路上?

Gemini 2.5 Pro 再升级!竞技场分数创新高+思考预算,更强 Kingfall 在路上?

作者头像
AI进修生
发布于 2025-06-08 10:30:05
发布于 2025-06-08 10:30:05
4310
举报
文章被收录于专栏:AI进修生AI进修生

谷歌又悄悄更新了 Gemini 2.5 Pro 模型

官方说,这次是 Gemini 2.5 Pro 的升级预览版,是他们目前最聪明的模型。在五月份发布和 I/O 大会上展示的版本基础上又优化了。几周后,这个版本就会成为正式的稳定版,可以用于企业级应用了。

他们还提到,最新的 2.5 Pro 在 Elmarina (LMSYS Arena) 上的 ELO 分数跳了 24 分,以 1470 分继续领跑排行榜。在 Web Dev Arena(网页开发那方面) 上更是猛涨 35 分,以 1443 分领先。

排行榜数据
排行榜数据

谷歌:我的对手只有我自己。。

排行榜图表
排行榜图表

我还是挺希望2.5 Pro多多更新的,平时用的模型就是他。工程代码当然还是用Claude。

LMSYS Arena - 免费体验高端模型的好地方

对了,关于这个竞技场,大家可以去玩一下。

链接:https://lmarena.ai/

LMSYS Arena 界面
LMSYS Arena 界面

那些需要付费的模型都在里面都可以玩(O3、Claude4 Opus)。只是有一些上下文限制。

模型列表
模型列表

还有一些各大官方没有推出的黑盒模型在里面。

黑盒模型
黑盒模型

Gemini 2.5 Pro

2.5 Pro基本代替了和Chatgpt聊天的位置,一个是AI Studio平台聊天分支称合我心,一个是免费、限制少。图片视频随便传。

编码能力依然强悍,在像 Aider Polyglot 这种高难度编码基准上保持领先。在 GPQA 和 Humanity's Last Exam 这类评估模型数学、科学、知识和推理能力的超难基准测试中,也表现顶尖。

性能基准
性能基准

谷歌还听取了之前 2.5 Pro 版本的反馈,改进了模型的风格和结构。现在它能更有创意,响应的格式也更好看。

新功能:"思考预算"

开发者现在可以通过 Google AI Studio 和 Vertex AI 里的 Gemini API 开始用这个升级版的 2.5 Pro。而且,他们还加了个"思考预算 (thinking budgets)"功能,让开发者能更好地控制成本和延迟。

思考预算功能
思考预算功能
思考预算界面
思考预算界面

Gemini App 今天也开始推送这个更新了。

现在可以给 Gemini 2.5 Pro 设置"思考预算",这挺好的。以前用不了这个功能,有时候成本会很高,现在能控制了,用起来更高效,成本也更有数。

价格依然有竞争力

价格跟以前一样,20 万 token 以内,输入 1.25 美元,输出 10 美元。到 100 万 token 的话,输出涨到 15 美元,输入大概 2.5 美元。

价格信息
价格信息

神秘新模型"Kingfall"现身

此外,谷歌即将推出一款新型号(代号:Kingfall),据报道,它在编码方面甚至比 Gemini 2.5 Pro 更强大。它短暂地出现在 AI Studio 的机密部分下......然后消失了。可能是 Gemini 2.5 Ultra???

Kingfall 神秘模型
Kingfall 神秘模型
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-06-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI进修生 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
谷歌终于登顶一次了!最强推理模型Gemini 2.5 Pro实测体验,真的有点东西
深夜悄悄搞事情的不只 OpenAI,抢在 OpenAI 开直播之前,谷歌上线了最强大的推理模型 Gemini 2.5 Pro。
机器之心
2025/03/27
3680
谷歌终于登顶一次了!最强推理模型Gemini 2.5 Pro实测体验,真的有点东西
深夜屠榜,谷歌重回第一
在保持 o3 四分之一以下的低价格的同时,在编码(Aider Polyglot)、推理能力(HLE)、科学(GPQA)等各项基准测试中超越 o3,实现更优性能!
Ai学习的老章
2025/06/08
650
深夜屠榜,谷歌重回第一
当Claude3.5 遇上 Gemini 2,这个免费的AI编程竞技场炸了。
有人用Gemini 2.0 Flash担任WebDev领域的裁判,在LMSys的竞技场里评判各大模型的编程能力。
AI进修生
2024/12/19
5650
当Claude3.5 遇上 Gemini 2,这个免费的AI编程竞技场炸了。
Google 推出 Gemini 2.5 Pro:提升推理与编程能力
Google 近日发布了 Gemini 2.5 Pro,这款升级版 AI 模型在推理能力、代码生成和多模态处理方面表现更强。该模型在 LMArena(衡量 AI 回答质量的人类偏好基准)中排名第一,并在数学、科学和逻辑推理等任务上取得了优异成绩。此外,Gemini 2.5 Pro 具备 100 万 token 的上下文窗口,并计划扩展至 200 万 token。
JavaEdge
2025/03/29
3550
断层第一!谷歌推出最强“六边形战士”Gemini 2.5 Pro模型
3月26日深夜,谷歌正式发布了全新思考模型——Gemini 2.5 Pro。此前业界广泛流传的代号"Nebula"神秘模型(现已确认就是Gemini 2.5 Pro)终于揭开面纱。该模型一经面世,便登顶LMSYS Arena榜单,稳居断层第一的位置。
用户11203141
2025/03/29
1450
断层第一!谷歌推出最强“六边形战士”Gemini 2.5 Pro模型
2025年2月的LLM最新排名中,Grok 3表现出色,逆势而上,而Claude 3.7 Sonnet则令人刮目相看,成绩突出!
最初,DeepSeek凭借其“性价比”优势迅速扩展到全球各地,随后引发了整个行业的激烈竞争。到了2月初,谷歌推出了Gemini 2.0系列模型。
福大大架构师每日一题
2025/03/06
4410
2025年2月的LLM最新排名中,Grok 3表现出色,逆势而上,而Claude 3.7 Sonnet则令人刮目相看,成绩突出!
快如闪电,还能控制思考深度?谷歌 Gemini 2.5 Flash 来了,用户盛赞“绝妙组合”。
Google 闪电战,Gemini 2.5 Flash 杀入 LMArena 榜单,直追 GPT-4.5 和 Grok-3。
AI进修生
2025/04/19
6850
快如闪电,还能控制思考深度?谷歌 Gemini 2.5 Flash 来了,用户盛赞“绝妙组合”。
Gemini 2.0 Flash 正式发布,成功跻身第一梯队?
Gemini 2.0 Flash 正式发布,同时发布 Pro 系列新模型,这一高效模型在性能、推理能力和多模态处理上全面升级,为开发者和用户带来更智能的体验。
AgenticAI
2025/03/18
1950
Gemini 2.0 Flash 正式发布,成功跻身第一梯队?
谷歌Gemini 2.5全线爆发!勇战「濒死恐慌」,却被丝血宝可梦吓到当场宕机
这次,Gemini 2.5 Flash和Gemini 2.5 Pro正式版上线,与谷歌I/O大会公布的预览版性能无明显变化。
新智元
2025/06/19
1350
谷歌Gemini 2.5全线爆发!勇战「濒死恐慌」,却被丝血宝可梦吓到当场宕机
Gemini 2.5 Pro登顶三冠王!AI最强编程屠榜,全面碾压Claude 3.7
昨晚,谷歌放出全新升级的Gemini 2.5 Pro Preview(I/O版),一举拿下三连冠,登顶LMeana。
新智元
2025/05/08
2370
Gemini 2.5 Pro登顶三冠王!AI最强编程屠榜,全面碾压Claude 3.7
Gemini 2.5 Flash、Grok 3 与Claude 4 Sonnet性能全解析
随着人工智能技术的飞速发展,选择适合的大模型对开发者至关重要。2025年5月,谷歌在 I/O 大会上推出的 Gemini 2.5 Flash Preview (05-20) 以其高效低成本的特性受到关注,在 LMArena.ai 排行榜中位列第二,仅次于 Gemini 2.5 Pro Preview。同期,xAI 的 Grok 3和 Anthropic 的 Claude 4 Sonnet(2025年5月22-23日发布)也以卓越性能备受瞩目。我们利用 POLOAPI 平台的高效模型调用功能,对这三款模型进行了全面测试,涵盖逻辑推理、多模态处理和代码生成等场景,旨在为开发者提供客观的性能参考。本文通过全新设计的测试任务,结合官方定价信息,深入分析三款模型的表现,并探讨其在实际场景中的应用潜力。
用户11658894
2025/05/27
5890
刚刚,马斯克发布Grok-4,在各大基准测试上表现太猛了。
Vending-Bench (模拟经营): 模拟经营售货机,Grok 4 净赚 $4694,卖了 4569 件货,排第一。Claude 才 $2077,人类玩家 $844。这说明它的 agentic (智能体) 运用和处理现实世界任务的能力很强。
AI进修生
2025/07/12
1230
刚刚,马斯克发布Grok-4,在各大基准测试上表现太猛了。
黑马!大模型竞技场榜单更新,国产玩家首次进入全球总榜前10
国内大模型公司零一万物旗下的Yi-Large千亿参数闭源大模型,跃升总榜第七,也成为榜上国产大模型第一。
量子位
2024/05/22
2950
黑马!大模型竞技场榜单更新,国产玩家首次进入全球总榜前10
AI巨头集体放大招!DeepSeek优化、豆包变强、ChatGPT画图不靠DALL·E、Gemini 2.5挑战GPT-5?
3月25日,DeepSeek官方宣布其DeepSeek-V3模型完成了小版本升级,版本号更新为DeepSeek-V3-0324。用户可以通过官方网页、App或小程序访问对话界面,关闭“深度思考”功能以体验新版模型。API接口和使用方式保持不变。
福大大架构师每日一题
2025/03/31
2830
AI巨头集体放大招!DeepSeek优化、豆包变强、ChatGPT画图不靠DALL·E、Gemini 2.5挑战GPT-5?
三年16篇一作,前谷歌研究科学家Yi Tay官宣新模型,21B媲美Gemini Pro、GPT-3.5
如果你经常读 AI 大模型方向的论文,Yi Tay 想必是一个熟悉的名字。作为前谷歌大脑高级研究科学家,Yi Tay 为许多知名的大型语言模型和多模态模型做出了贡献,包括 PaLM、UL2、Flan-U-PaLM、LaMDA/Bard、ViT-22B、PaLI、MUM 等。
机器之心
2024/02/26
2120
三年16篇一作,前谷歌研究科学家Yi Tay官宣新模型,21B媲美Gemini Pro、GPT-3.5
谷歌AI核爆:升级全系模型,Gemini 2.5双榜登顶!所有产品用AI重做,OpenAI如何接招?
通常情况下,在 I/O 大会前的几周里,外界不会听到太多 I/O 大会的消息,因为谷歌一般会把最好的模型留到 I/O 大会上发布。但在 Gemini 时代,谷歌很可能会在三月的某个周二突然发布出他们最强的人工智能模型,或者提前一周宣布像 AlphaEvolve 这样的酷炫突破。
深度学习与Python
2025/05/21
2920
谷歌AI核爆:升级全系模型,Gemini 2.5双榜登顶!所有产品用AI重做,OpenAI如何接招?
官方测评!OpenAI vs. Gemini vs. Claude!谁才是你的最佳AI编程模型选择?
现在的AI大模型,发展迅速,各种模型层出不穷!在编程上,主要的模型还是OpenAI、Google Gemini 和 Anthropic Claude比较出色!
程序视点
2025/03/28
8730
官方测评!OpenAI vs. Gemini vs. Claude!谁才是你的最佳AI编程模型选择?
Llama 4 先后被 DeepSeek、英伟达暴击,Meta 不再是大模型开源“霸主”了
当地时间 4 月 8 日,英伟达宣布推出其最新大语言模型 Llama3.1 Nemotron Ultra 253B。该模型基于 Meta 的 Llama-3.1-405B-Instruct 构建,并利用创新的神经架构搜索(NAS)技术进行了深度优化。其性能超越了最近发布的 Llama4,如 Behemoth、Maverick,并在 Hugging Face 平台上开源,引起 AI 社区广泛关注的同时,也再次“暴击”了 Meta。
深度学习与Python
2025/04/13
1130
Llama 4 先后被 DeepSeek、英伟达暴击,Meta 不再是大模型开源“霸主”了
众包新玩法!LLM竞技场诞生基准测试,严格分离学渣学霸
人家竞技场背后的组织LMSYS,已经悄悄完成了成果转化:从实战中诞生的最有说服力的基准测试——Arena-Hard。
新智元
2024/05/22
2590
众包新玩法!LLM竞技场诞生基准测试,严格分离学渣学霸
【AGI-Eval 行业动态 NO.8】Gemini 2.5 Pro “屠榜”?一手实测“看看实力”
Google 官方在北京时间 26 日晚在 X 上发布了 Gemini 2.5 Pro 发布的公告:
AGI-Eval评测社区
2025/04/02
4160
【AGI-Eval 行业动态 NO.8】Gemini 2.5 Pro “屠榜”?一手实测“看看实力”
推荐阅读
谷歌终于登顶一次了!最强推理模型Gemini 2.5 Pro实测体验,真的有点东西
3680
深夜屠榜,谷歌重回第一
650
当Claude3.5 遇上 Gemini 2,这个免费的AI编程竞技场炸了。
5650
Google 推出 Gemini 2.5 Pro:提升推理与编程能力
3550
断层第一!谷歌推出最强“六边形战士”Gemini 2.5 Pro模型
1450
2025年2月的LLM最新排名中,Grok 3表现出色,逆势而上,而Claude 3.7 Sonnet则令人刮目相看,成绩突出!
4410
快如闪电,还能控制思考深度?谷歌 Gemini 2.5 Flash 来了,用户盛赞“绝妙组合”。
6850
Gemini 2.0 Flash 正式发布,成功跻身第一梯队?
1950
谷歌Gemini 2.5全线爆发!勇战「濒死恐慌」,却被丝血宝可梦吓到当场宕机
1350
Gemini 2.5 Pro登顶三冠王!AI最强编程屠榜,全面碾压Claude 3.7
2370
Gemini 2.5 Flash、Grok 3 与Claude 4 Sonnet性能全解析
5890
刚刚,马斯克发布Grok-4,在各大基准测试上表现太猛了。
1230
黑马!大模型竞技场榜单更新,国产玩家首次进入全球总榜前10
2950
AI巨头集体放大招!DeepSeek优化、豆包变强、ChatGPT画图不靠DALL·E、Gemini 2.5挑战GPT-5?
2830
三年16篇一作,前谷歌研究科学家Yi Tay官宣新模型,21B媲美Gemini Pro、GPT-3.5
2120
谷歌AI核爆:升级全系模型,Gemini 2.5双榜登顶!所有产品用AI重做,OpenAI如何接招?
2920
官方测评!OpenAI vs. Gemini vs. Claude!谁才是你的最佳AI编程模型选择?
8730
Llama 4 先后被 DeepSeek、英伟达暴击,Meta 不再是大模型开源“霸主”了
1130
众包新玩法!LLM竞技场诞生基准测试,严格分离学渣学霸
2590
【AGI-Eval 行业动态 NO.8】Gemini 2.5 Pro “屠榜”?一手实测“看看实力”
4160
相关推荐
谷歌终于登顶一次了!最强推理模型Gemini 2.5 Pro实测体验,真的有点东西
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档