Claude 3.7 Sonnet
Image 1
https://www.anthropic.com/news/claude-3-7-sonnet
今天,我們宣布推出 Claude 3.7 Sonnet — 這是我們迄今為止最智慧的模型,也是市面上首個混合推理模型。Claude 3.7 Sonnet 能夠產生近乎即時的回應,或展現逐步思考的過程,讓使用者可以清楚看到模型的思維軌跡。API 用戶亦可精細控制模型思考的時長。
Claude 3.7 Sonnet 在程式編寫與前端網頁開發上展現了顯著進步。除了這項模型外,我們同時推出了一款用於自主程式編寫的命令行工具 —Claude Code。Claude Code 目前以有限的研究預覽形式提供,使開發者能夠直接從終端機上委派大量工程任務給 Claude。
Claude 3.7 Sonnet 現已在所有 Claude 計劃中上線 — 包括免費、專業、團隊及企業版,同時也適用於 Anthropic API、Amazon Bedrock 與 Google Cloud 的 Vertex AI。擴展思考模式則在除免費版之外的所有平台上提供。
無論是在標準模式還是擴展思考模式下,Claude 3.7 Sonnet 的定價均與先前版本相同:每百萬輸入代幣 3 美元,每百萬輸出代幣 15 美元 — 此價格包含思考代幣。
Claude 3.7 Sonnet:前沿推理實踐化
我們在開發 Claude 3.7 Sonnet 時,採用了與市面上其他推理模型不同的理念。正如人類利用單一大腦同時處理快速反應與深入思考,我們相信推理應作為前沿模型的一項整合功能,而非獨立的模型。這種統一方法也能為使用者帶來更無縫的體驗。
Claude 3.7 Sonnet 在多方面體現了這一理念。首先,它同時兼具普通大語言模型與推理模型的功能:你可以選擇讓模型直接給出回應,或要求它在回答前進行更長時間的思考。在標準模式下,Claude 3.7 Sonnet 是 Claude 3.5 Sonnet 的升級版;而在擴展思考模式下,模型會在回答前自我反思,從而在數學、物理、指令遵循、程式編寫等任務上提升表現。我們發現,無論在哪一模式下,對模型的提示方式均大致相同。
其次,當透過 API 使用 Claude 3.7 Sonnet 時,使用者也可以控制模型思考的預算:你可以設定 Claude 的思考時間不超過 N 代幣(N 的值最高可達 128K 輸出代幣),從而在速度(及成本)與回答品質之間取得平衡。
第三,在開發推理模型時,我們對數學與計算機科學競賽題的優化略有減少,而是將重點轉向更符合企業實際應用場景的現實任務。
早期測試顯示,Claude 在程式編寫能力方面全面領先:
•Cursor指出,Claude 再次成為程式編寫任務中的最佳模型,無論是處理複雜程式碼庫或進階工具應用都有顯著進步;
•Cognition發現它在規劃程式碼變更和處理全端更新方面遠勝其他模型;
•Vercel強調了 Claude 在執行複雜代理工作流程時的非凡精確度;
•Replit成功部署 Claude 從零開始建立精密網頁應用與儀表板,而其他模型則常陷入停滯;
•Canva的評估中,Claude 始終能產出具備卓越設計品味且錯誤大幅減少的生產就緒程式碼。
Claude 3.7 Sonnet 在 SWE-bench Verified 測試中達到最先進的表現,此測試評估 AI 模型解決現實軟體問題的能力。更多有關評測結構的資訊請參閱附錄。
Claude 3.7 Sonnet 在 TAU-bench 測試中同樣取得最先進的成績,此框架用於測試 AI 代理在與使用者和工具互動下執行複雜現實任務的能力。
Claude 3.7 Sonnet 在遵循指示、一般推理、多模態能力及自主程式編寫方面均表現出色,且在擴展思考模式下,其在數學與科學任務上的表現更獲顯著提升。超越傳統基準測試,在我們的 Pokémon 遊戲測試中,它甚至超越了所有先前的模型。
Claude Code
自 2024 年 6 月以來,Sonnet 一直是全球開發者的首選模型。今天,我們進一步賦能開發者,推出Claude Code— 我們首款自主程式編寫工具,目前以有限的研究預覽形式提供。
Claude Code 是一個積極的協作者,它能夠搜尋並閱讀程式碼、編輯檔案、撰寫並執行測試、提交及推送程式碼到 GitHub,還能使用命令行工具 — 在每一個步驟中都讓你掌握進度。
雖然 Claude Code 仍屬初期產品,但它已成為我們團隊不可或缺的工具,尤其在測試驅動開發、複雜問題除錯以及大規模重構方面。早期測試顯示,Claude Code 能在一次性完成本來需要 45 分鐘以上手動工作的任務,從而大幅減少開發時間及成本。
在未來幾週中,我們計劃根據實際使用情況持續改進 Claude Code:提升工具調用的可靠性、增加對長時間命令的支持、改善應用內渲染效果,並擴展 Claude 自身對其功能的理解。
我們推出 Claude Code 的目標是更好地了解開發者如何利用 Claude 進行程式編寫,以便推動未來模型的改進。
與 Claude 協作於你的程式碼庫
我們也進一步改進了 Claude.ai 上的程式編寫體驗。目前,GitHub 整合功能已在所有 Claude 計劃中提供,使開發者能夠直接將程式碼庫連接到 Claude。
Claude 3.7 Sonnet 是我們迄今為止最佳的程式編寫模型。由於它對你的個人、工作以及開源專案有更深入的理解,因此在修復錯誤、開發新功能以及為你最重要的 GitHub 專案建立文件方面,它都能成為更強大的夥伴。
負責任地構建
我們已對 Claude 3.7 Sonnet 進行了廣泛的測試與評估,並與外部專家合作,以確保其符合我們在安全性、可靠性及穩定性上的標準。與前一版本相比,Claude 3.7 Sonnet 能夠對有害與無害的請求做出更細微的區分,不必要的拒絕率降低了 45%。
此次版本的系統說明卡涵蓋了多個類別中的新安全結果,詳細解釋了我們的「負責任擴展政策」評估,供其他 AI 實驗室和研究人員參考。說明卡還探討了電腦使用中出現的新風險,特別是提示注入攻擊,並解釋了我們如何評估這些漏洞,以及訓練 Claude 抵抗和減輕這些風險。此外,它還檢視了推理模型可能帶來的安全好處:例如了解模型如何做出決策,以及其推理是否真正值得信賴。詳情請參閱完整的系統說明卡。
展望未來
Claude 3.7 Sonnet 和 Claude Code 標誌著邁向真正能夠增強人類能力的 AI 系統的重要一步。憑藉其深入推理、自主程式編寫和高效協作的能力,這兩項技術正帶領我們邁向一個 AI 能夠豐富並拓展人類成就的未來。
领取专属 10元无门槛券
私享最新 技术干货