突发消息,Anthropic正式发布Claude 3.7 Sonnet和Claude Code。Claude 3.7 Sonnet作为迄今为止最智能的模型,也是市面上首个混合推理模型,其核心特性包括:一是双模式运行,标准模式较前代Sonnet升级,适合快速交互,扩展思考模式通过自我反思优化数学、物理、指令遵循、编码等任务表现,且两种模式下提示词用法一致;二是API灵活控制,用户可设定思考预算(最多128K输出令牌),平衡速度、成本与回答质量;三是聚焦真实开发场景,减少对竞赛题型的优化,转而提升企业实际需求任务的完成度。
在性能突破方面,Claude 3.7 Sonnet在指令跟踪、一般推理、多模态能力和代理编码方面表现出色,扩展思维在数学和科学方面显著提升,如在SWE-bench上扩展思考模式达到70.3、标准模式达到62.3,在TAU-bench上也取得目前最高分数,甚至在宝可梦对战模拟中超越所有前代模型。Claude Code是随同发布的命令行工具(目前为研究预览版),开发者可直接通过终端将工程任务委托给Claude,在早期测试中,它能在一次任务中完成通常需要45分钟的手动工作,从而减少开发时间和开销。接下来的几周里,Anthropic计划根据用户使用情况不断改进Claude Code,例如增强工具调用可靠性,增加对长期运行命令的支持,改进应用内渲染,并扩展Claude对其功能的理解。此外,Anthropic的GitHub集成现在在所有Claude计划中可用,使开发人员能够将他们的代码库直接连接到Claude。目前Claude 3.7 Sonnet可用于所有Claude计划,以及Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI,除了免费计划外,扩展思维模式在所有地方都可用。
Claude 3.7 Sonnet是Anthropic迄今为止最智能的模型,也是全球首个**“混合推理模型”**,结合了两种模式:
Anthropic计划进一步优化Claude Code工具,并推动模型向自主智能体方向发展,目标是2025年实现“专家级智能体独立工作数小时”,2027年解决人工团队需数年攻克的难题。
更多技术细节可参考Anthropic官方博客:Claude 3.7 Sonnet发布说明 。