
什么是GPT-4?完整指南
GPT 和 Llama 等大型語言模型都是使用下一個標記預測損失進行訓練的。這些模型通過執(zhí)行下一個標記預測任務來學習大型文本語料庫 x1,… xT。正式來說,學習目標是最小化交叉熵損失:
其中 Pθ 是我們正在訓練的大型語言模型,為了最大化 xt+1 作為下一個未來標記的概率,給定過去標記的歷史 xt:1 = xt, …, x1。
通過多標記預測實現(xiàn)更好更快的大型語言模型 — 2024這篇論文通過實現(xiàn)多標記預測任務概括了上述內(nèi)容,其中在訓練語料庫的每個位置,指示模型使用獨立的輸出頭并行預測 n 個未來標記。這轉(zhuǎn)化為交叉熵損失:
本文做了幾個實驗來找到最佳的n(需要預測多少個未來 token),同時驗證了在訓練生成或推理任務的語言模型時,多 token 預測可以提高下一個 token 預測的性能(準確性)。
本文還證明了多標記預測會導致模型能力和泛化行為發(fā)生質(zhì)的變化。其背后的原因可能是因為多標記預測減輕了訓練時間教師強制和推理時間自回歸生成之間的分布差異。
DeepSeek V3 采用了上述論文中提到的多 Token 預測的主要思想,但有所改變,即按順序預測更多 Token,并在每個預測深度保留完整的因果鏈。
DeepSeek 中的多標記預測變體
DeepSeek 中的多 token 預測采用鏈式結構,而非原論文中的并行結構。輸入 token [t1,t2,t3,t4] 經(jīng)過主模型的 transformer 塊,然后經(jīng)過主模型的輸出頭,生成下一個預測 token t5。同時,輸入 token [t1,t2,t3,t4](主模型 transformer 塊的輸出)的表示將傳遞到 MTP 模塊,并與新輸入 token 的 embedding[t2,t3,t4, t5(新預測)] 相結合,幫助生成額外的 token t6……在 DeepSeek-V3 中,模型預測接下來的2 個token。
在本次DeepSeek-V3 技術報告中,作者證明了多令牌預測在大多數(shù)情況下可以提高性能。
多標記預測是否對所有情況都有改善?通過多標記預測實現(xiàn)更好、更快的大型語言模型 — 2024本文表明,多標記預測可能會為多項選擇和基于可能性的基準引入回歸。使用 MTP 的 DeepSeek 中的 MMLU(大規(guī)模多任務語言理解)回歸(67.5 -> 66.6)符合這一結論。