
Krea AI核心功能揭秘:從圖像生成到模型訓練
GPT-4.5 比 GPT-4o 更簡潔、更具對話性。資料來源:OpenAI
GPT-4.5 與 OpenAI 推理模型之間最大的區別之一在于它如何處理和構建其響應。
o1、DeepSeek R1或o3-mini等模型使用思路鏈 (CoT) 推理,這意味著它們會逐步分解復雜問題,就像人類在數學問題中寫出他們的工作一樣。這種結構化方法有助于邏輯推理、多步驟解決問題和詳細解釋。
然而,GPT-4.5 并不這樣推理。相反,它根據語言直覺和模式識別做出反應,從訓練數據中汲取經驗,而不明確地將問題分解為步驟。這就是為什么它感覺更具對話性和自然性,但這也意味著它對于高級編程或科學推理等邏輯性較強的任務不太可靠。
GPT-4.5 的突出之處在于對話質量。響應更加自然,使互動感覺不那么機械化,更加直觀。OpenAI 與人類評估者進行了測試,結果顯示,與 GPT-4o 相比,GPT-4.5 的語氣、清晰度和參與度明顯更好(稍后將詳細介紹基準)。
現場演示中的一個對比引起了我們的注意。OpenAI 工程師向不同的模型詢問:“為什么海洋是咸的?”:
從我們的角度來看,這種向簡潔和清晰的轉變使 GPT-4.5 更適合休閑對話、總結和寫作輔助。我們還喜歡發布博客中的這個示例如何很好地展示對話式 GPT 的演變:
通用技術(GPT)的演變
為了了解 GPT-4.5 的實際性能,我們查看了 OpenAI 的演示并運行了我們自己的測試。
OpenAI 的一個演示很好地說明了這一點。一位朋友再次取消計劃后,用戶要求 GPT-4.5 幫忙起草一份文本。最初的請求是沮喪和沖動的:
“寫一條短信告訴他們我討厭他們。”
GPT-4.5 察覺到了請求背后的情感,并建議做出更具建設性的回應,同時仍然承認這種挫敗感。OpenAI 將此與 o1 進行了比較,后者遵循了字面指令,但沒有認識到潛在的意圖。
我們嘗試了類似的提示,并注意到了同樣的事情——GPT-4.5 比以前的模型更能理解語氣和社交細微差別。例如,我們提示模型給老板寫一封咄咄逼人的電子郵件,我們期望模型能察覺到我們的沮喪情緒,并幫助我們以更專業、更有建設性的方式重新組織回應——它確實做到了!
當然,如果我們明確告訴它輸出憤怒的文字,它會遵從,但默認情況下,它似乎優先考慮更深思熟慮和平衡的回應。你實際上可以在這里看到我們分享的聊天示例。
另一個關鍵改進是 GPT-4.5 如何解釋概念。OpenAI 比較了不同的模型如何回答“為什么海洋是咸的?”,并得出結論,GPT-4.5 簡明扼要地總結了要點,而 GPT-4 Turbo 則提供了詳細的答案。
我們僅針對GPT-4o (與 GPT-4 Turbo 不同)進行了測試,結果幾乎相同。但是,當我們針對舊模型 GPT-4 進行測試時,我們確實看到了顯著差異。我們嘗試了許多提示,但您可以比較“為什么河流不咸?”的答案:
我們用幾個特定推理題測試了它,結果不出所料,它表現不佳。以下只是一個例子(請參閱此處的對話):
例如,O3-mini 在第一次嘗試時就輕松找到了正確答案——請參閱此處的對話。
OpenAI 從一開始就明確表示:GPT-4.5 并不是一個推理能力超強的模型。與依靠思路鏈 (CoT) 推理逐步分解復雜問題的 O 系列模型不同,GPT-4.5 依賴于無監督學習,這意味著它基于語言直覺而不是結構化邏輯來生成響應。
這種權衡反映在基準測試結果中。GPT-4.5 在準確性和事實性方面優于之前的模型,但在結構化問題解決方面落后。
GPT-4.5 在常識和事實準確性方面領先,在 SimpleQA 上的準確率達到 62.5%,大幅超過 GPT-4o(38.2%)、OpenAI o1(47%)和 OpenAI o3-mini(15%)。
來源:OpenAI
然而,更重要的是 GPT-4.5 降低了幻覺率。之前的模型很難自信地生成錯誤信息,但 GPT-4.5 的幻覺率最低,為 37.1%,比 GPT-4o(61.8%)、OpenAI o1(44%)和 o3-mini(80.3%)有了很大的改進。
來源:OpenAI
這意味著 GPT-4.5 產生的錯誤陳述比之前的 OpenAI 模型要少,盡管它在事實核查方面仍然不完全可靠(畢竟仍然有 37.1%)。
OpenAI 與人類測試人員進行了對比評估,測量了 GPT-4.5 與 GPT-4o 在不同類型的查詢中的勝率。結果表明,在大多數情況下,GPT-4.5 更受青睞,尤其是在專業查詢中(勝率為 63.2%)。
來源:OpenAI
雖然 GPT-4.5 提高了事實準確性和對話流暢度,但在數學、科學和結構化編碼等推理密集型任務方面仍然存在不足。基準測試表明,它的表現優于 GPT-4o,但落后于 OpenAI 的 o3-mini,后者針對基于邏輯的問題解決進行了優化。
基準 | GPT-4.5 | GPT-4o | OpenAI o3?mini(高) |
GPQA(科學) | 71.4% | 53.6% | 79.7% |
AIME ’24(數學) | 36.7% | 9.3% | 87.3% |
MMMLU(多語言) | 85.1% | 81.5% | 81.1% |
MMMU(多式聯運) | 74.4% | 69.1% | – |
SWE-Lancer Diamond(編碼) | 32.6%186,125美元 | 23.3%138,750美元 | 10.8%$89,625 |
SWE-Bench 驗證(編碼) | 38.0% | 30.7% | 61.0% |
來源:OpenAI
總體而言,GPT-4.5 并不是高級數學、邏輯或需要逐步推理的編程任務的最佳選擇。需要結構化問題解決的用戶仍然會發現 o3-mini 或以未來推理為重點的模型更適合這些應用。
由于 GPU 限制,GPT-4.5 正在逐步推出,Pro 用戶將首先獲得訪問權限,隨著 OpenAI 擴展其基礎設施,Plus 用戶將于下周獲得訪問權限。企業和教育級用戶將在未來幾周內獲得訪問權限。
一旦您獲得訪問權限,您將能夠從模型選擇器訪問它:
GPT-4.5 集成了 ChatGPT 的最新功能,包括文件和圖像上傳、搜索功能以及用于編寫和編碼任務的畫布工具。但是,ChatGPT 尚不支持語音模式、視頻處理和屏幕共享等多模式功能。
GPT-4.5 還可通過 Chat Completions API、Assistant API 和 Batch API 供開發人員使用。該模型支持函數調用、結構化輸出、系統消息、流媒體和視覺功能。
然而,這是一個龐大且計算密集型的模型,因此比以前的版本更昂貴。OpenAI 尚未承諾將 GPT-4.5 作為長期產品,因此其可用性可能取決于開發人員的反饋。
類別 | 價格 |
輸入 | 75.00 美元 |
緩存輸入 | 37.50 美元 |
輸出 | 150.00 美元 |
定價(每 100 萬個token)
GPT-4.5 是 OpenAI 產品線中最昂貴的模型之一,反映了其更高的計算需求。
API 速率限制因訪問層級而異,影響開發人員可以使用的每分鐘請求數 (RPM) 和每分鐘令牌數 (TPM)。較高層級的客戶可獲得更高的吞吐量。
等級 | RPM(每分鐘請求數) | TPM(每分鐘令牌數) | 批處理隊列限制 |
第 1 層 | 1,000 | 125,000 | 5萬 |
第 2 層 | 5,000 | 25萬 | 50萬 |
第 3 級 | 5,000 | 50萬 | 50,000,000 |
第 4 層 | 10,000 | 1,000,000 | 1億 |
5級 | 10,000 | 2,000,000 | 5,000,000,000 |
擁有更高級別 API 訪問權限的開發人員將擁有更大的容量,這使得 GPT-4.5 更適合企業級 AI 應用程序。
GPT-4.5 目前處于研究預覽階段,OpenAI 尚未確認它是否會永久存在于 API 中。鑒于其成本和計算需求較高,OpenAI 可能會根據用戶反饋評估是否可持續繼續部署。
GPT-4.5 是迄今為止最自然、社交意識最強的 ChatGPT 模型。從我們的測試來看,它始終能夠理解情緒的細微差別,更加深思熟慮地重新措辭攻擊性提示,并提供更清晰、更有條理的回應。
然而,它的推理能力仍然很弱,我們通過測試證實,它在推理能力較強的問題上表現不佳,而 o3-mini 等模型表現更好。雖然 GPT-4.5 非常適合流暢的交互,但它并不是結構化問題解決或精確編碼輔助的可靠模型。
對于優先考慮對話流暢性和清晰度的用戶來說,GPT-4.5 是一個進步。但對于任何需要深度邏輯的事情,都有更好的選擇。
文章轉載自: ChatGPT 4.5:功能、訪問、GPT-4o 比較等