首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

创新突破:claude 3.7 Sonnet与claude Code提升程序编写效率的5大优势

Claude 3.7 Sonnet

Image 1

https://www.anthropic.com/news/claude-3-7-sonnet

今天,我們宣布推出 Claude 3.7 Sonnet — 這是我們迄今為止最智慧的模型,也是市面上首個混合推理模型。Claude 3.7 Sonnet 能夠產生近乎即時的回應,或展現逐步思考的過程,讓使用者可以清楚看到模型的思維軌跡。API 用戶亦可精細控制模型思考的時長。

Claude 3.7 Sonnet 在程式編寫與前端網頁開發上展現了顯著進步。除了這項模型外,我們同時推出了一款用於自主程式編寫的命令行工具 —Claude Code。Claude Code 目前以有限的研究預覽形式提供,使開發者能夠直接從終端機上委派大量工程任務給 Claude。

Claude 3.7 Sonnet 現已在所有 Claude 計劃中上線 — 包括免費、專業、團隊及企業版,同時也適用於 Anthropic API、Amazon Bedrock 與 Google Cloud 的 Vertex AI。擴展思考模式則在除免費版之外的所有平台上提供。

無論是在標準模式還是擴展思考模式下,Claude 3.7 Sonnet 的定價均與先前版本相同:每百萬輸入代幣 3 美元,每百萬輸出代幣 15 美元 — 此價格包含思考代幣。

Claude 3.7 Sonnet:前沿推理實踐化

我們在開發 Claude 3.7 Sonnet 時,採用了與市面上其他推理模型不同的理念。正如人類利用單一大腦同時處理快速反應與深入思考,我們相信推理應作為前沿模型的一項整合功能,而非獨立的模型。這種統一方法也能為使用者帶來更無縫的體驗。

Claude 3.7 Sonnet 在多方面體現了這一理念。首先,它同時兼具普通大語言模型與推理模型的功能:你可以選擇讓模型直接給出回應,或要求它在回答前進行更長時間的思考。在標準模式下,Claude 3.7 Sonnet 是 Claude 3.5 Sonnet 的升級版;而在擴展思考模式下,模型會在回答前自我反思,從而在數學、物理、指令遵循、程式編寫等任務上提升表現。我們發現,無論在哪一模式下,對模型的提示方式均大致相同。

其次,當透過 API 使用 Claude 3.7 Sonnet 時,使用者也可以控制模型思考的預算:你可以設定 Claude 的思考時間不超過 N 代幣(N 的值最高可達 128K 輸出代幣),從而在速度(及成本)與回答品質之間取得平衡。

第三,在開發推理模型時,我們對數學與計算機科學競賽題的優化略有減少,而是將重點轉向更符合企業實際應用場景的現實任務。

早期測試顯示,Claude 在程式編寫能力方面全面領先:

Cursor指出,Claude 再次成為程式編寫任務中的最佳模型,無論是處理複雜程式碼庫或進階工具應用都有顯著進步;

Cognition發現它在規劃程式碼變更和處理全端更新方面遠勝其他模型;

Vercel強調了 Claude 在執行複雜代理工作流程時的非凡精確度;

Replit成功部署 Claude 從零開始建立精密網頁應用與儀表板,而其他模型則常陷入停滯;

Canva的評估中,Claude 始終能產出具備卓越設計品味且錯誤大幅減少的生產就緒程式碼。

Claude 3.7 Sonnet 在 SWE-bench Verified 測試中達到最先進的表現,此測試評估 AI 模型解決現實軟體問題的能力。更多有關評測結構的資訊請參閱附錄。

Claude 3.7 Sonnet 在 TAU-bench 測試中同樣取得最先進的成績,此框架用於測試 AI 代理在與使用者和工具互動下執行複雜現實任務的能力。

Claude 3.7 Sonnet 在遵循指示、一般推理、多模態能力及自主程式編寫方面均表現出色,且在擴展思考模式下,其在數學與科學任務上的表現更獲顯著提升。超越傳統基準測試,在我們的 Pokémon 遊戲測試中,它甚至超越了所有先前的模型。

Claude Code

自 2024 年 6 月以來,Sonnet 一直是全球開發者的首選模型。今天,我們進一步賦能開發者,推出Claude Code— 我們首款自主程式編寫工具,目前以有限的研究預覽形式提供。

Claude Code 是一個積極的協作者,它能夠搜尋並閱讀程式碼、編輯檔案、撰寫並執行測試、提交及推送程式碼到 GitHub,還能使用命令行工具 — 在每一個步驟中都讓你掌握進度。

雖然 Claude Code 仍屬初期產品,但它已成為我們團隊不可或缺的工具,尤其在測試驅動開發、複雜問題除錯以及大規模重構方面。早期測試顯示,Claude Code 能在一次性完成本來需要 45 分鐘以上手動工作的任務,從而大幅減少開發時間及成本。

在未來幾週中,我們計劃根據實際使用情況持續改進 Claude Code:提升工具調用的可靠性、增加對長時間命令的支持、改善應用內渲染效果,並擴展 Claude 自身對其功能的理解。

我們推出 Claude Code 的目標是更好地了解開發者如何利用 Claude 進行程式編寫,以便推動未來模型的改進。

與 Claude 協作於你的程式碼庫

我們也進一步改進了 Claude.ai 上的程式編寫體驗。目前,GitHub 整合功能已在所有 Claude 計劃中提供,使開發者能夠直接將程式碼庫連接到 Claude。

Claude 3.7 Sonnet 是我們迄今為止最佳的程式編寫模型。由於它對你的個人、工作以及開源專案有更深入的理解,因此在修復錯誤、開發新功能以及為你最重要的 GitHub 專案建立文件方面,它都能成為更強大的夥伴。

負責任地構建

我們已對 Claude 3.7 Sonnet 進行了廣泛的測試與評估,並與外部專家合作,以確保其符合我們在安全性、可靠性及穩定性上的標準。與前一版本相比,Claude 3.7 Sonnet 能夠對有害與無害的請求做出更細微的區分,不必要的拒絕率降低了 45%。

此次版本的系統說明卡涵蓋了多個類別中的新安全結果,詳細解釋了我們的「負責任擴展政策」評估,供其他 AI 實驗室和研究人員參考。說明卡還探討了電腦使用中出現的新風險,特別是提示注入攻擊,並解釋了我們如何評估這些漏洞,以及訓練 Claude 抵抗和減輕這些風險。此外,它還檢視了推理模型可能帶來的安全好處:例如了解模型如何做出決策,以及其推理是否真正值得信賴。詳情請參閱完整的系統說明卡。

展望未來

Claude 3.7 Sonnet 和 Claude Code 標誌著邁向真正能夠增強人類能力的 AI 系統的重要一步。憑藉其深入推理、自主程式編寫和高效協作的能力,這兩項技術正帶領我們邁向一個 AI 能夠豐富並拓展人類成就的未來。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OZvrVpM8oNQgFOFd9YhS31oQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券