11月25日消息,据TC报道,周一,Anthropic 发布了其旗舰机型 Opus 4.5 的最新版本。这是 Anthropic 4.5 系列的最后一款产品,此前该系列已分别于 9 月和 10 月发布了 Sonnet 4.5 和 Haiku 4.5。
正如预期的那样,新版 Opus 在一系列基准测试中都表现出了最先进的性能,包括编码基准测试(SWE-Bench 和 Terminal-bench)、工具使用(tau2-bench 和 MCP Atlas)以及一般问题解决(ARC-AGI 2、GPQA Diamond)。
值得注意的是,Opus 4.5 是第一个在 SWE-Bench verified(一个备受推崇的编码基准测试)上得分超过 80% 的模型。
Anthropic 还重点强调了 Opus 的计算机应用和电子表格功能,并推出了一系列配套产品,以展示该模型在这些场景下的表现。
随着 Opus 4.5 的发布,Anthropic 将进一步推广此前处于试点阶段的Claude for Chrome和Claude for Excel产品。Chrome 扩展程序将面向所有 Max 用户开放,而专注于 Excel 的版本将面向 Max、Team 和 Enterprise 用户开放。
Opus 4.5 还针对长时间上下文操作进行了内存改进,这需要对模型管理内存的方式进行重大更改。
Anthropic公司研究产品管理负责人Dianne Na Penn告诉TechCrunch:“我们在Opus 4.5的训练中提高了整体长上下文质量,但仅靠上下文窗口是不够的。除了更长的上下文窗口之外,记住正确的细节也至关重要。”
这些改动还为付费 Claude 用户启用了期待已久的“无限聊天”功能,当模型到达上下文窗口时,聊天可以不间断地进行。模型会压缩上下文记忆,而不会通知用户。
许多升级都着眼于智能体应用场景,特别是 Opus 作为主智能体指挥一组由 Haiku 驱动的子智能体的场景。管理这些任务需要强大的工作记忆能力,而 Penn 所描述的内存改进正是在这方面展现了其价值。
“这就是像内存这样的基本要素变得非常重要的地方,”佩恩说,“因为克劳德需要能够探索代码库和大型文档,还需要知道何时回溯并重新检查某些内容。”
Opus 4.5 将面临来自其他近期发布的尖端模型的激烈竞争,最值得注意的是 OpenAI 的 GPT 5.1(11 月 12 日发布)和 Google 的 Gemini 3(11 月 18 日发布)。(鞭牛士、AI普瑞斯编译)