
Salesforce元數據API開發指南
來源:Anthropic
不同模型版本之間的準確率提升了近 13%,這并非小幅改進。這表明 Claude 3.7 Sonnet 已針對更好地理解和執行編程相關任務進行了優化。對于依賴 Claude 進行軟件工程、調試或自動化的用戶來說,此次升級帶來了切實的改變。
代理工具使用性能是 Claude 3.7 Sonnet 超越其前代產品的另一個方面。在零售相關任務中,其準確率達到 81.2%,高于 Claude 3.5 Sonnet 的 71.5%。在航空相關任務中,其準確率達到 58.4%,比前一版本提高了近 10 個百分點。
來源:Anthropic
在所有基準測試中,最大的進步來自于擴展思維模式,這使得 Claude 3.7 在復雜的推理任務中表現得更高。依賴人工智能進行結構化工作流程、編碼或解決問題的用戶會發現 Claude 3.5 和 Claude 3.7 之間存在明顯差異,尤其是在使用擴展思維時。
來源:Anthropic
這一進展大部分源自Claude 的延伸思考,讓我們進一步了解一下。
啟用擴展思考模式后,Claude 在最終確定答案之前所采取的推理步驟數量會增加。開發人員可以通過設置思考預算來微調此過程,該預算定義了模型在解決問題時可以使用多少個標記。如下面的 AIME 2024 性能圖所示,隨著分配更多標記,準確率會提高,并呈現對數趨勢。
來源:Anthropic
這種方法反映了人類的認知努力:對于簡單的任務,快速回答就足夠了,但對于復雜的任務,更深入的分析會帶來更好的結果。Claude 現在可以決定何時暫停、重新評估和改進其推理,而不是默認立即做出反應。
擴展思維模式最有趣的方面之一是 Claude 的推理過程對用戶可見。然而,這一特性也帶來了一些挑戰。雖然它提供了對人工智能推理的洞察,但所顯示的思維過程可能并不總是與模型實際做出決策的方式完全一致。“忠實度問題”——人工智能自我報告的想法是否準確地代表了其內部機制——仍然是一個懸而未決的研究問題。
Claude 3.7 Sonnet 進行長期迭代推理的能力在 OSWorld 和 Pokémon Red 游戲等評估中得到了檢驗。例如,在 Pokémon Red 中,Claude 3.7 Sonnet 的游戲進度遠高于之前的版本,能夠完成多個里程碑,而之前的模型在游戲早期就停滯不前了。
來源:Anthropic
我們已經看到了 Claude 3.7 Sonnet 與其早期版本相比的表現如何,但它與 OpenAI 的 o3-mini、DeepSeek-R1 或 Grok 3 相比如何?
從更新的基準來看,Claude 3.7 Sonnet 已成為性能最好的模型之一,尤其是在推理密集型任務、編碼和代理工具使用方面。
在研究生水平推理 (GPQA Diamond) 中,Claude 3.7 Sonnet 在標準模式下得分為 68.0%,在擴展思維模式下得分為 84.8%,是此類別中最強大的模型之一。它的表現遠遠優于 OpenAI 的 o1 (78.0%) 和 DeepSeek-R1 (71.5%),而 Grok 3 Beta (84.6%) 僅略勝一籌。
基準 | Claude 3.7 Sonnet (Standard) | Claude 3.7 Sonnet (Extended Thinking) | OpenAI o1 | OpenAI o3-mini (high) | DeepSeek R1 | Grok 3 Beta |
GPQA Diamond (Graduate-level reasoning) | 68.0% | 84.8% | 78.0% | 79.7% | 71.5% | 84.6% |
AIME 2024 (High school math competition) | 23.3% | 80.0% | 83.3% | 87.3% | 79.8% | 93.3% |
Math Problem-Solving (MATH 500) | 82.2% | 96.2% | 96.4% | 97.9% | 97.3% | – |
測試高中數學競賽問題的AIME 2024基準測試也顯示出類似的趨勢。Claude 3.7 Sonnet 比以前的版本有了很大的飛躍,在啟用擴展思維的情況下得分為 80.0%。雖然它以微弱優勢擊敗了 DeepSeek-R1(79.8%),但仍落后于 OpenAI 的 o3-mini(87.3%)和 Grok 3 Beta(93.3%)。
在數學問題解決(MATH 500)方面,Claude 3.7 Sonnet 達到了 96.2%,與 OpenAI 的 o3-mini(97.9%)和 DeepSeek R1(97.3%)非常接近。
Claude 3.7 Sonnet 在編碼基準測試中取得了最大的進步。在 SWE-bench Verified(評估軟件工程任務中的 AI 模型)中,Claude 3.7 Sonnet 得分為 62.3%,使用自定義支架后上升到 70.3%。這使其遠遠領先于 OpenAI 的 o1(48.9%)和 o3-mini(49.3%),以及在設計時考慮到編碼的 DeepSeek R1(49.2%)。這證實了 Claude 3.7 現在是編程相關任務的最佳 AI 模型之一。
基準 | Claude 3.7 Sonnet (Standard) | Claude 3.7 Sonnet (Custom Scaffold) | OpenAI o1 | OpenAI o3-mini (high) | DeepSeek R1 |
SWE-bench Verified (Coding) | 62.3% | 70.3% | 48.9% | 49.3% | 49.2% |
TAU-bench Retail (Tool Use) | 81.2% | – | 73.5% | – | – |
TAU-bench Airline (Tool Use) | 58.4% | – | 54.2% | – | – |
除了編碼之外,Claude 3.7 Sonnet 在代理工具使用方面也處于領先地位,使其成為自動化和工作流程執行的不二之選。在 TAU-bench(測試 AI 在結構化環境中與外部工具交互的能力)上,Claude 3.7 在零售相關任務中的得分為 81.2%,超過了 OpenAI o1(73.5%)。在航空相關任務中,Claude 3.7 達到 58.4%,再次超越 OpenAI o1(54.2%)。
這表明 Claude 3.7 非常適合商業應用程序和結構化工作流程,使其成為希望將 AI 融入決策和運營流程的企業用戶的有力選擇。
Claude 3.7 Sonnet 可通過多種渠道獲得,包括 Anthropic 的 Web 界面、Claude 在各種應用中的集成以及開發人員的 API 訪問。雖然該模型是一項重大升級,但它的可用性也有一些限制——尤其是如果你想使用思維模式,目前它被鎖定在付費層級后面。
對于普通用戶,可以通過 Anthropic 的官方網站 ( claude.ai ) 和 Claude 應用程序訪問 Claude 3.7 Sonnet。它提供免費套餐,但有限制:
要啟用思考模式,您需要從模型下拉菜單中單擊“擴展” :
開發人員可以使用 Anthropic 的 API 將 Claude 3.7 Sonnet 集成到他們的應用程序中,該 API 可通過Anthropic 的開發人員門戶訪問。該 API 支持基于代幣使用情況的按需付費定價模型。
以下是 Anthropic API 產品概述:
特征 | Claude 3.7 Sonnet | Claude 3.7 Sonnet | Claude 3.5 Haiku | Claude 3 Opus | Claude 3 Haiku |
描述 | 我們最智能的模型 | 我們之前最智能的模型 | 我們最快的型號 | 適用于復雜任務的強大模型 | 最快、最緊湊的型號,可實現近乎即時的響應 |
優勢 | 最高級別的智能和能力,具有可切換的擴展思維 | 高水平的智力和能力 | 飛速發展的情報 | 頂級智力、流利程度和理解力 | 快速、準確的目標表現 |
多種語言 | 是的 | 是的 | 是的 | 是的 | 是的 |
想象 | 是的 | 是的 | 是的 | 是的 | 是的 |
延伸思考 | 是的 | 不 | 不 | 不 | 不 |
API 型號名稱 | Claude-3-7-十四行詩-20250219 | 升級版本:claude-3-5-sonnet-20241022先前版本:claude-3-5-sonnet-20240620 | Claude-3-5-俳句-20241022 | Claude-3-作品-20240229 | Claude-3-俳句-20240307 |
比較延遲 | 快速地 | 快速地 | 最快的 | 中等速度 | 最快的 |
上下文窗口 | 20萬 | 20萬 | 20萬 | 20萬 | 20萬 |
最大輸出 | Normal: 8192 tokens Extended thinking:64000 tokens | 8192 tokens | 8192 tokens | 4096 tokens | 4096 tokens |
成本(輸入/輸出/百萬tokens) | $3.00 / $15.00 | $3.00 / $15.00 | 0.80 美元 / 4.00 美元 | $15.00 / $75.00 | 0.25 美元 / 1.25 美元 |
訓練數據截斷 | 2024 年 10 月 | 2024 年 4 月 | 2024 年 7 月 | 2023 年 8 月 | 2023 年 8 月 |
來源:Anthropic
確保始終檢查最新的 API 定價。
Anthropic 剛剛推出了 Claude 3.7 Sonnet,這是該公司近期最大的舉措,該模型最終將其帶入了推理 AI 領域。根據基準測試,我們可以看到,它是 OpenAI 的 o3-mini、DeepSeek-R1 和 Grok 3 的有力競爭對手,在編碼、結構化問題解決和代理工具使用方面具有強大的性能。
能夠在通用模式和推理模式之間切換使其更加通用,但將思維模式鎖定在付費墻后面感覺像是一個失誤,尤其是在有免費替代品可用的情況下。不過,Claude 3.7 是一個重大進步。