來源:Anthropic

不同模型版本之間的準確率提升了近 13%,這并非小幅改進。這表明 Claude 3.7 Sonnet 已針對更好地理解和執行編程相關任務進行了優化。對于依賴 Claude 進行軟件工程、調試或自動化的用戶來說,此次升級帶來了切實的改變。

代理工具的使用

代理工具使用性能是 Claude 3.7 Sonnet 超越其前代產品的另一個方面。在零售相關任務中,其準確率達到 81.2%,高于 Claude 3.5 Sonnet 的 71.5%。在航空相關任務中,其準確率達到 58.4%,比前一版本提高了近 10 個百分點。

來源:Anthropic

總體基準

在所有基準測試中,最大的進步來自于擴展思維模式,這使得 Claude 3.7 在復雜的推理任務中表現得更高。依賴人工智能進行結構化工作流程、編碼或解決問題的用戶會發現 Claude 3.5 和 Claude 3.7 之間存在明顯差異,尤其是在使用擴展思維時。

來源:Anthropic

這一進展大部分源自Claude 的延伸思考,讓我們進一步了解一下。

Claude 的延伸思考

啟用擴展思考模式后,Claude 在最終確定答案之前所采取的推理步驟數量會增加。開發人員可以通過設置思考預算來微調此過程,該預算定義了模型在解決問題時可以使用多少個標記。如下面的 AIME 2024 性能圖所示,隨著分配更多標記,準確率會提高,并呈現對數趨勢。

來源:Anthropic

這種方法反映了人類的認知努力:對于簡單的任務,快速回答就足夠了,但對于復雜的任務,更深入的分析會帶來更好的結果。Claude 現在可以決定何時暫停、重新評估和改進其推理,而不是默認立即做出反應。

擴展思維模式最有趣的方面之一是 Claude 的推理過程對用戶可見。然而,這一特性也帶來了一些挑戰。雖然它提供了對人工智能推理的洞察,但所顯示的思維過程可能并不總是與模型實際做出決策的方式完全一致。“忠實度問題”——人工智能自我報告的想法是否準確地代表了其內部機制——仍然是一個懸而未決的研究問題。

Claude 3.7 Sonnet 進行長期迭代推理的能力在 OSWorld 和 Pokémon Red 游戲等評估中得到了檢驗。例如,在 Pokémon Red 中,Claude 3.7 Sonnet 的游戲進度遠高于之前的版本,能夠完成多個里程碑,而之前的模型在游戲早期就停滯不前了。

來源:Anthropic

Claude 3.7 Sonnet 基準測試

我們已經看到了 Claude 3.7 Sonnet 與其早期版本相比的表現如何,但它與 OpenAI 的 o3-mini、DeepSeek-R1 或 Grok 3 相比如何?

從更新的基準來看,Claude 3.7 Sonnet 已成為性能最好的模型之一,尤其是在推理密集型任務、編碼和代理工具使用方面。

推理和數學

在研究生水平推理 (GPQA Diamond) 中,Claude 3.7 Sonnet 在標準模式下得分為 68.0%,在擴展思維模式下得分為 84.8%,是此類別中最強大的模型之一。它的表現遠遠優于 OpenAI 的 o1 (78.0%) 和 DeepSeek-R1 (71.5%),而 Grok 3 Beta (84.6%) 僅略勝一籌。

基準Claude 3.7 Sonnet (Standard)Claude 3.7 Sonnet (Extended Thinking)OpenAI o1OpenAI o3-mini (high)DeepSeek R1Grok 3 Beta
GPQA Diamond (Graduate-level reasoning)68.0%84.8%78.0%79.7%71.5%84.6%
AIME 2024 (High school math competition)23.3%80.0%83.3%87.3%79.8%93.3%
Math Problem-Solving (MATH 500)82.2%96.2%96.4%97.9%97.3%

測試高中數學競賽問題的AIME 2024基準測試也顯示出類似的趨勢。Claude 3.7 Sonnet 比以前的版本有了很大的飛躍,在啟用擴展思維的情況下得分為 80.0%。雖然它以微弱優勢擊敗了 DeepSeek-R1(79.8%),但仍落后于 OpenAI 的 o3-mini(87.3%)和 Grok 3 Beta(93.3%)。

在數學問題解決(MATH 500)方面,Claude 3.7 Sonnet 達到了 96.2%,與 OpenAI 的 o3-mini(97.9%)和 DeepSeek R1(97.3%)非常接近。

編碼和代理工具的使用

Claude 3.7 Sonnet 在編碼基準測試中取得了最大的進步。在 SWE-bench Verified(評估軟件工程任務中的 AI 模型)中,Claude 3.7 Sonnet 得分為 62.3%,使用自定義支架后上升到 70.3%。這使其遠遠領先于 OpenAI 的 o1(48.9%)和 o3-mini(49.3%),以及在設計時考慮到編碼的 DeepSeek R1(49.2%)。這證實了 Claude 3.7 現在是編程相關任務的最佳 AI 模型之一。

基準Claude 3.7 Sonnet (Standard)Claude 3.7 Sonnet (Custom Scaffold)OpenAI o1OpenAI o3-mini (high)DeepSeek R1
SWE-bench Verified (Coding)62.3%70.3%48.9%49.3%49.2%
TAU-bench Retail (Tool Use)81.2%73.5%
TAU-bench Airline (Tool Use)58.4%54.2%

除了編碼之外,Claude 3.7 Sonnet 在代理工具使用方面也處于領先地位,使其成為自動化和工作流程執行的不二之選。在 TAU-bench(測試 AI 在結構化環境中與外部工具交互的能力)上,Claude 3.7 在零售相關任務中的得分為 81.2%,超過了 OpenAI o1(73.5%)。在航空相關任務中,Claude 3.7 達到 58.4%,再次超越 OpenAI o1(54.2%)。

這表明 Claude 3.7 非常適合商業應用程序和結構化工作流程,使其成為希望將 AI 融入決策和運營流程的企業用戶的有力選擇。

如何訪問 Claude 3.7 Sonnet

Claude 3.7 Sonnet 可通過多種渠道獲得,包括 Anthropic 的 Web 界面、Claude 在各種應用中的集成以及開發人員的 API 訪問。雖然該模型是一項重大升級,但它的可用性也有一些限制——尤其是如果你想使用思維模式,目前它被鎖定在付費層級后面。

Web 和應用程序訪問

對于普通用戶,可以通過 Anthropic 的官方網站 ( claude.ai ) 和 Claude 應用程序訪問 Claude 3.7 Sonnet。它提供免費套餐,但有限制:

要啟用思考模式,您需要從模型下拉菜單中單擊“擴展” :

Claude 3.7 Sonnet API 訪問

開發人員可以使用 Anthropic 的 API 將 Claude 3.7 Sonnet 集成到他們的應用程序中,該 API 可通過Anthropic 的開發人員門戶訪問。該 API 支持基于代幣使用情況的按需付費定價模型。

以下是 Anthropic API 產品概述:

特征Claude 3.7 SonnetClaude 3.7 SonnetClaude 3.5 HaikuClaude 3 OpusClaude 3 Haiku
描述我們最智能的模型我們之前最智能的模型我們最快的型號適用于復雜任務的強大模型最快、最緊湊的型號,可實現近乎即時的響應
優勢最高級別的智能和能力,具有可切換的擴展思維高水平的智力和能力飛速發展的情報頂級智力、流利程度和理解力快速、準確的目標表現
多種語言是的是的是的是的是的
想象是的是的是的是的是的
延伸思考是的
API 型號名稱Claude-3-7-十四行詩-20250219升級版本:claude-3-5-sonnet-20241022先前版本:claude-3-5-sonnet-20240620Claude-3-5-俳句-20241022Claude-3-作品-20240229Claude-3-俳句-20240307
比較延遲快速地快速地最快的中等速度最快的
上下文窗口20萬20萬20萬20萬20萬
最大輸出Normal: 8192 tokens
Extended thinking:64000 tokens
8192 tokens8192 tokens4096 tokens4096 tokens
成本(輸入/輸出/百萬tokens)$3.00 / $15.00$3.00 / $15.000.80 美元 / 4.00 美元$15.00 / $75.000.25 美元 / 1.25 美元
訓練數據截斷2024 年 10 月2024 年 4 月2024 年 7 月2023 年 8 月2023 年 8 月

來源:Anthropic

確保始終檢查最新的 API 定價。

結論

Anthropic 剛剛推出了 Claude 3.7 Sonnet,這是該公司近期最大的舉措,該模型最終將其帶入了推理 AI 領域。根據基準測試,我們可以看到,它是 OpenAI 的 o3-mini、DeepSeek-R1 和 Grok 3 的有力競爭對手,在編碼、結構化問題解決和代理工具使用方面具有強大的性能。

能夠在通用模式和推理模式之間切換使其更加通用,但將思維模式鎖定在付費墻后面感覺像是一個失誤,尤其是在有免費替代品可用的情況下。不過,Claude 3.7 是一個重大進步。

上一篇:

全球首個混合推理模型 Claude 3.7 Sonnet 問世,編碼實力碾壓眾對手

下一篇:

DeepSeek 新開源項目 DeepGEMM
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數據驅動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費