本周大模型领域多项技术突破引人注目,包括NVIDIA发布Rubin平台大幅降低成本、OpenAI推出健康垂直领域功能,以及上海AI Lab开源Yume1.5世界模型实现效率飞跃。同时,OpenRouter模型调用量排名出现显著变化,Claude Sonnet 4.5超越Grok Code Fast 1成为整体调用量冠军,行业格局正在发生微妙调整。
测评类型 | 第一名 | 第二名 | 第三名 |
|---|---|---|---|
模型调用量 | Claude Sonnet 4.5 | Grok Code Fast 1 | Gemini 2.5 Flash |
公司市占率 | Anthropic | xAI | |
编程模型调用量 | Grok Code Fast 1 | Claude Opus 4.5 | MiniMax M2.1 |
测评类型 | 领先公司 |
|---|---|
大语言模型 Text Arena | Google、xAI、Anthropic、OpenAI、百度、智谱、阿里巴巴、月之暗面 |
编程能力 LMArena | Anthropic、OpenAI、Google |
编程能力 LiveCodeBench | OpenAI、Anthropic、Google |
代码工程任务能力 SWE-benchLite | 基于Claude、Gemini、GPT、Qwen、DeepSeek开发的开源系统 |
图像编辑和生成能力 Image Edit Arena | OpenAI、Google、字节、Reve |
文生图能力 Text-to-Image Arena | OpenAI、Google、Black Forest Labs、腾讯、字节 |
图像编辑和生成能力 Image Editing Leaderboard | OpenAI、Google、字节、Black Forest Labs、阿里巴巴、Reve |
文生图能力 Text to Image Leaderboard | OpenAI、Google、Black Forest Labs、字节、ImagineArt |
GPQA | OpenAI、Google、xAI、Anthropic、阿里巴巴 |
FrontierMath | OpenAI、Google、月之暗面、Anthropic、xAI |
Humanity's Last Exam | Google、OpenAI、Anthropic |
GAIA | Nvidia、Suzhou AI Lab&Shuqian Tech、Microsoft AI Asia -Ads、LR AILab of Lenovo CTO Org等 |
关注我,第一时间掌握更多AI前沿资讯!
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。