圖源:https://x.com/btibor91/status/1893970824484581825

2月25日凌晨,Anthropic 的新旗艦模型如約而至,正式發布了其迄今為止最智能的模型以及市面上首款混合推理模型 —— Claude 3.7 Sonnet。

Claude 3.7 Sonnet 可以產生近乎即時的響應或者向用戶展示擴展的、逐步的思考。按照 Anthropic 的說法,「一個模型,兩種思考方式」(One model, two ways to think.),即標準和擴展思考模式。另外 API 用戶還可以對模型的思考時間進行細粒度控制。

在發布 Claude 3.7 Sonnet 之外,Anthropic 還推出了用于智能編碼的命令行工具 Claude Code。它目前作為有限的研究預覽版本使用,使開發人員能夠直接從他們的終端將大量工程任務委托給 Claude。

在編碼方面,Anthropic 還改進了 Claude.ai 上的編碼體驗,其 GitHub 集成現已在所有 Claude 計劃中提供,使開發人員能夠將他們的代碼存儲庫直接連接到 Claude。通過更深入地了解個人、工作和開源項目,Claude 將成為用戶在 GitHub 項目中修復錯誤、開發功能和構建文檔的更強大合作伙伴。

因此,得益于編碼和前端 web 開發方面的功能與改進,Claude 3.7 Sonnet 成為 Anthropic 迄今為止最好的編碼模型。

目前,新模型 Claude 3.7 Sonnet 可以通過所有 Claude 計劃(包括 Free、Pro、Team 和 Enterprise)以及 Anthropic API、Amazon Bedrock 和 Google Cloud Vertex AI 使用。除了免費用戶之外,所有其他用戶均可體驗擴展思考模式。

在標準和擴展思考模式下,Claude 3.7 Sonnet 的價格與其前代(Claude 3.5 Sonnet)相同,每百萬輸入 token 3 美元,每百萬輸出 token 15 美元(包括思考 token)。

正如一位網友所評價的那樣,「Anthropic 的每次發布都能讓人微笑并感到興奮!」

最強 Claude 3.7 Sonnet讓前沿推理觸手可及

Anthropic 表示,其開發 Claude 3.7 Sonnet 的理念與市面上其他推理模型不同。正如人類使用單個大腦進行快速反應和深度思考一樣,Anthropic 認為推理應該體現前沿模型的綜合能力,而不再是完全獨立的模型。這種統一的方法將為用戶創造更無縫的體驗。

遵循上述理念,Claude 3.7 Sonnet 形成了很多獨有優勢。

首先,Claude 3.7 Sonnet 既是普通的 LLM,又是推理模型。你可以選擇何時希望模型正常回答,何時希望它在回答之前思考更長時間。在標準模式下,Claude 3.7 Sonnet 是前代 Claude 3.5 Sonnet 的升級版。在擴展思維模式下,它會在回答之前進行自我反思,從而提高其在數學、物理、指令遵循、編碼和許多其他任務上的表現。Anthropic 發現,兩種模式下,模型的提示詞工作方式類似。

其次,當通過 API 使用 Claude 3.7 Sonnet 時,用戶還可以控制思考預算。你可以告訴 Claude 思考不超過 N 個 token。對于任何 N 值,其輸出限制為 128K 個 token。這允許用戶在速度(和成本)和答案質量之間進行權衡。

第三,在開發自家的推理模型時,Anthropic 對數學和計算機科學競賽問題的優化較少,而是將重點轉向更能反映企業實際使用 LLM 方式的現實任務。

我們來看下 Claude 3.7 Sonnet 的基準測試結果,其中在 SWE-bench Verified(評估 LLM 解決 GitHub 上真實軟件問題能力的基準測試數據集)上,Claude 3.7 Sonnet 實現了 SOTA 性能,遠遠超過了 Claude 3.5 Sonnet、OpenAI 的 o3-mini (high) 和 o1 以及 DeepSeek R1。

在 TAU-bench(評估 LLM 在復雜真實場景中用戶與工具交互能力的基準測試平臺)上,Claude 3.7 Sonnet 同樣實現了 SOTA 性能,超過了 Claude 3.5 Sonnet 和 OpenAI 的 o1。

Claude 3.7 Sonnet 在指令遵循、通用推理、多模態能力和智能編碼方面表現出色,擴展思考在數學和科學方面實現了顯著提升,但在一些方面依然不及 OpenAI 的 o3-mini (high)、Grok-3 Beta 等。

可以看到,對于 Claude Sonnet 3.7,Anthropic 將重點放在了編碼能力上,其他領域似乎并不特別重要。很明顯,Anthropic 想將 Sonnet 定位為編碼 AI(已經是了)。

圖源:https://x.com/kimmonismus/status/1894098443859079609


另外,除了傳統基準之外,Claude 3.7 Sonnet 甚至可以在寶可夢(Pokémon)游戲測試中超越所有以前的模型。

Anthropic 已經與合作伙伴進行了非常多的早期測試,證明了 Claude 在編碼能力方面的全面領先地位。

其中,Cursor 指出 Claude 再次成為現實世界編碼任務的最佳選擇,從處理復雜代碼庫到高級工具使用都有顯著改進。Cognition 發現,Claude 在規劃代碼更改和處理全棧更新方面遠遠優于任何其他模型。

Vercel 強調了 Claude 在復雜代理工作流程中的出色精確度,而 Replit 已成功部署 Claude 從頭開始構建復雜的 Web 應用程序和儀表板,而其他模型則停滯不前。在 Canva 的評估中,Claude 始終如一地編寫出具有卓越設計品味且可投入生產的代碼,并大幅減少了錯誤。

Claude Code智能編碼讓開發更便捷

自 2024 年 6 月以來,Sonnet 一直是全球開發者的首選模型。今天,Anthropic 推出了其首款智能編碼工具 Claude Code(有限的研究預覽版本),進一步增強開發者的能力。

在功能上,Claude Code 是一個積極的協作者,可以搜索和閱讀代碼、編輯文件、編寫和運行測試、提交和推送代碼到 GitHub,以及使用命令行工具。


我們來看下它的幾個使用示例,比如解釋項目結構:

編寫測試:

構建應用:

雖然是一款早期產品,Claude Code 對于 Anthropic 團隊來說已經變得不可或缺,尤其是用于測試驅動開發、調試復雜問題和大規模重構。

在早期測試中,Claude Code 可以一次性完成通常需要 45 分鐘以上手動工作才能完成的任務,從而減少了開發時間和開銷

在接下來的幾周內,Anthropic 計劃根據自身的使用情況不斷改進 Claude Code,包括增強工具調用可靠性、增加對長時間運行命令的支持、改進應用內渲染以及擴展 Claude 對其功能的理解。

Claude Code 的目標是更好地了解開發人員如何使用 Claude 進行編碼,以便為未來的模型改進提供參考。通過加入此預覽版,用戶將可以使用 Anthropic 用于構建和改進 Claude 的相同強大工具。

負責任構建與未來展望

Anthropic 對 Claude 3.7 Sonnet 進行了廣泛的測試和評估,并與外部專家合作,以確保其符合其安全性和可靠性標準。

同時,Claude 3.7 Sonnet 還對有害請求和良性請求進行了更細微的區分。與前代相比,不必要的拒絕減少了 45%。

CoT 忠實度評估結果。

在 Claude 3.7 Sonnet 的模型卡中,Anthropic 詳細細分了自身的負責任擴展策略評估以及其他 AI 實驗室和研究人員應用于他們工作的情況。另外,模型卡中還概覽了計算機使用帶來的新風險,特別是快速注入攻擊,并解釋了 Anthropic 如何評估這些漏洞并訓練 Claude 抵御和緩解這些漏洞。

此外,模型卡中還研究了推理模型的潛在安全優勢,以及理解模型如何做出決策、模型推理是否真正值得信賴和可靠。

對于此次發布的 Claude 3.7 Sonnet 和 Claude Code,Anthropic 認為它們標志著 AI 系統邁出了重要一步,開始向著真正增強人類能力邁進。憑借著深度推理、自主工作和有效協作的能力,我們更接近了 AI 豐富和擴展人類能力的未來。

Anthropic 還展示了一個真正令人興奮的發展圖景,希望在 2025 年 Claude 可以成為獨立自主工作數小時的專家級智能體;到 2027 年,希望 Claude 能夠解決人工團隊花費數年才能解決的挑戰性難題。

文章轉載自:全球首個混合推理模型:Claude 3.7 Sonnet來襲,真實編碼力壓一切對手

上一篇:

Claude 3.7 Sonnet:技術解析與應用實例

下一篇:

Claude 3.7 Sonnet:功能、訪問、基準測試等
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數據驅動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費