首页
学习
活动
专区
圈层
工具
发布

最强编程模型Claude Opus 4.1上线:小更新加量不加价,预告还有重磅消息

文丨苏扬

编辑丨郑可君

8月6日,Anthropic在发布 Claude Opus 4不到3个月之后,再次升级模型编程能力,推出Claude Opus 4.1,官方将这个新版本定义为是Claude Opus 4的Agent代理任务、真实世界编码和推理能力的全面提升。

需要注意的是,Anthropic在官方新闻稿中还留了一句伏笔——我们计划在未来几周内发布对模型的重大改进。而OpenAI不久前也刚刚宣布,GPT-5即将发布。也就是说,8月注定是大模型圈热闹非凡的一个月。

根据Anthropic提供的数据,Claude Opus 4.1的编码性能在前一个版本的基础上略微有所提升,在SWE-bench Verified基准测试中,相比Opus 4提升了2个百分点,达到74.5%,而相比Sonnet 3.7则提升幅度更大,后者仅为62.3%。

需要注意的是,SWE-bench Verified基准测试由OpenAI和Python于2024年2月份联合推出,OpenAI旗下的GPT-4.1的得分只有54.6%。

让我们继续聚焦Claude,Anthropic援引GitHub的数据,强调Opus 4.1这次升级重点在多文件代码重构的性能提升上表现最突出,并且援引日本乐天集团的案例,称Opus 4.1擅长在大型代码库中精准定位更正,避免不必要的调整或引入错误,

另外,Anthropic还援引Windsurf报告,称Opus 4.1 在其初级开发人员基准测试中比 Opus 4 提高了一个标准差,其性能提升幅度与从 Sonnet 3.7 到 Sonnet 4 的提升大致相同

主流模型在Agentic编码等基准测试中的数据表现

另外,在官方新闻稿中,Anthropic还提供了主流模型在Agentic编码、推理能力、工具与多语言等几个基准测试数据,除了视觉推理、高校数学竞赛等少数两项处于劣势之外,其他均领先于Opus 4等自家模型以及OpenAI o3和Gemini 2.5 Pro等竞对的模型。

换句话说,Opus 4更愿意强调自己的编码无敌,但如果你要看中数学能力,OpenAI o3还是优选。

Anthropic称目前已经向付费用户开放Opus 4.1,并建议用户从Opus 4升级至Opus 4.1。

根据价格页面展示的信息,Opus 4.1的输入和输出价格分别为15美元/百万Token和75美元/百万Token,定价和Opus保持一致,基本属于加量不加价。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O_MPcIOL4sSiWe-hQx-zqVCg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券