部署DeepSeek模型,进群交流最in玩法!
立即加群
发布
社区首页 >专栏 >Anthropic正式发布Claude 3.7 Sonnet和Claude Code:这次程序员真要飞啦;一觉醒来,天都被捅破啦

Anthropic正式发布Claude 3.7 Sonnet和Claude Code:这次程序员真要飞啦;一觉醒来,天都被捅破啦

作者头像
猫头虎
发布2025-02-26 08:27:31
发布2025-02-26 08:27:31
1140
举报

突发消息,Anthropic正式发布Claude 3.7 Sonnet和Claude Code。Claude 3.7 Sonnet作为迄今为止最智能的模型,也是市面上首个混合推理模型,其核心特性包括:一是双模式运行,标准模式较前代Sonnet升级,适合快速交互,扩展思考模式通过自我反思优化数学、物理、指令遵循、编码等任务表现,且两种模式下提示词用法一致;二是API灵活控制,用户可设定思考预算(最多128K输出令牌),平衡速度、成本与回答质量;三是聚焦真实开发场景,减少对竞赛题型的优化,转而提升企业实际需求任务的完成度。

在这里插入图片描述
在这里插入图片描述

在性能突破方面,Claude 3.7 Sonnet在指令跟踪、一般推理、多模态能力和代理编码方面表现出色,扩展思维在数学和科学方面显著提升,如在SWE-bench上扩展思考模式达到70.3、标准模式达到62.3,在TAU-bench上也取得目前最高分数,甚至在宝可梦对战模拟中超越所有前代模型。Claude Code是随同发布的命令行工具(目前为研究预览版),开发者可直接通过终端将工程任务委托给Claude,在早期测试中,它能在一次任务中完成通常需要45分钟的手动工作,从而减少开发时间和开销。接下来的几周里,Anthropic计划根据用户使用情况不断改进Claude Code,例如增强工具调用可靠性,增加对长期运行命令的支持,改进应用内渲染,并扩展Claude对其功能的理解。此外,Anthropic的GitHub集成现在在所有Claude计划中可用,使开发人员能够将他们的代码库直接连接到Claude。目前Claude 3.7 Sonnet可用于所有Claude计划,以及Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI,除了免费计划外,扩展思维模式在所有地方都可用。

1. 模型核心特性:首个混合推理模型

Claude 3.7 Sonnet是Anthropic迄今为止最智能的模型,也是全球首个**“混合推理模型”**,结合了两种模式:

  • 标准模式(传统模式):实时生成快速响应,适用于常规任务。
  • 扩展思考模式:通过自我反思生成逐步推理过程,显著提升数学、物理、编码等复杂任务的性能。
  • 用户控制:API用户可设定“思考预算”(例如限制思考的Token数量),在速度、成本与答案质量间灵活权衡。
在这里插入图片描述
在这里插入图片描述

2. 编码能力的全面领先
  • 基准测试突破:在评估真实软件问题解决能力的SWE-bench中达到70.3%的SOTA成绩,远超Claude 3.5 Sonnet、OpenAI o3-mini和DeepSeek R1。
  • 工具增强
    • Claude Code(预览版):命令行工具支持开发者从终端委托复杂工程任务(如编写测试、修复Bug、构建应用),早期测试中一次性完成需45分钟手动工作的任务。
    • GitHub集成:所有用户计划支持代码仓库直连,提升代码理解和协作效率。
    在这里插入图片描述
    在这里插入图片描述

3. 多领域性能提升
  • 数学与科学:扩展思考模式下,数学能力较前代提升10%以上,物理问题解决更精准。
  • 多模态与游戏测试:在宝可梦游戏测试中,模型通过持续交互(如虚拟按键操作)击败三位道馆馆主,展示长期任务处理能力。
  • 指令遵循与通用推理:在TAU-bench(复杂交互任务评估)中表现优异,优于OpenAI和DeepSeek模型。
在这里插入图片描述
在这里插入图片描述
4. 定价与可用性
  • 价格与前代一致:每百万输入Token收费3美元,输出Token(含思考Token)15美元。
  • 开放范围:免费用户可使用标准模式,Pro、Team、Enterprise用户及API用户可体验扩展思考模式。支持Anthropic API、Amazon Bedrock和Google Cloud Vertex AI接入。
5. 安全性与责任
  • 减少45%不必要的拒绝(如对良性请求的误判),同时增强对有害内容的识别。
  • 发布详细的系统卡,阐明模型安全策略及应对潜在风险(如代码注入攻击)的防御措施。
6. 未来展望

Anthropic计划进一步优化Claude Code工具,并推动模型向自主智能体方向发展,目标是2025年实现“专家级智能体独立工作数小时”,2027年解决人工团队需数年攻克的难题。

在这里插入图片描述
在这里插入图片描述
用户评价与争议
  • 积极反馈:用户称赞其编码效率和推理能力,例如“10秒完成会计分析可视化”。
  • 争议点:部分用户批评知识截止至2024年10月(误答美国总统问题),且扩展思考模式可能导致高成本(思考Token数量易达数百至上千)。

更多技术细节可参考Anthropic官方博客:Claude 3.7 Sonnet发布说明

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2025-02-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 模型核心特性:首个混合推理模型
  • 2. 编码能力的全面领先
  • 3. 多领域性能提升
  • 4. 定价与可用性
  • 5. 安全性与责任
  • 6. 未来展望
  • 用户评价与争议
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档