1.2 模型能力

DeepSeek模型已經(jīng)對標(biāo)國內(nèi)Qwen、海外Llama、GPT 4o,從公布的榜單評測上看:DeepSeek-V3 在開源模型中位列榜首,與世界上最先進(jìn)的閉源模型不分伯仲。

1.3訓(xùn)推成本

推理成本(API報價):百萬Token輸入價格能達(dá)到1元。

訓(xùn)練成本:從技術(shù)報告中看DeepSeek用的是H800的GPU做的訓(xùn)練,而且只有2千張左右的H800,整個V3的正式訓(xùn)練成本不超過600W美元。

1、預(yù)訓(xùn)練階段,每萬億的Token 訓(xùn)練V3使用2048個H800GPU集群,只需要180K 個H800 GPU小時,大概3.7天(180000/2048/24)

2、整個預(yù)訓(xùn)練總耗時2664K GPU小時(不到2個月),加上 上下文擴(kuò)展和后訓(xùn)練,總耗時大概2788KGPU耗時。

3、按照H800 每小時2美元租賃,總的訓(xùn)練成本不超過600W美元

DeepSeek-V3 Technical Report

這么低的推理和訓(xùn)練成本不由引出以下的問題:

模型采用了什么樣的網(wǎng)絡(luò)架構(gòu)?

訓(xùn)練的精度、框架和并行策略是怎樣的?

模型的部署和優(yōu)化方案是怎樣的?

在硬件層的計(jì)算和通信上做了什么優(yōu)化?

二、DeepSeek訓(xùn)推核心技術(shù)

2.1 DeepSeek-V3模型網(wǎng)絡(luò)架構(gòu)

DeepSeekV3 整體預(yù)訓(xùn)練用了14.8萬億的高質(zhì)量Token,并且在后期做了SFT和RL,模型參數(shù)量達(dá)到671B,但是每個Token僅激活37B參數(shù)。為了做到高效的推理和訓(xùn)練,DeepSeekV3自研了MLA注意力機(jī)制和無輔助損失負(fù)載均衡策略的MoE架構(gòu)。

從技術(shù)報告中看出,是經(jīng)典的Transformer架構(gòu),比較亮眼的就是前饋網(wǎng)絡(luò)使用的DeepSeekMoE架構(gòu)、Attention機(jī)制使用MLA架構(gòu),其實(shí)這兩個在DeepSeekV2模型已經(jīng)被驗(yàn)證使用過。

與DeepSeek-V2相比,V3額外引入了一種無輔助損失的負(fù)載均衡策略,用于DeepSeekMoE,以減輕因需要保證Expert負(fù)載均衡而導(dǎo)致的性能下降。

2.1.1 DeepSeekMoE

第一個將MoE架構(gòu)引入Transformer網(wǎng)絡(luò)的就是GShard架構(gòu)了,與傳統(tǒng)大模型架構(gòu)相比,MoE架構(gòu)在數(shù)據(jù)流轉(zhuǎn)過程中集成了一個專家網(wǎng)絡(luò)層。

可以看出傳統(tǒng)的MoE基本兩部分組成:Gating門控網(wǎng)絡(luò)、稀疏MoE層;

●稀疏 MoE 層: 這些層代替了傳統(tǒng) Transformer 模型中的前饋網(wǎng)絡(luò) (FFN) 層。MoE 層包含若干“專家”(例如 8 個),每個專家本身是一個獨(dú)立的神經(jīng)網(wǎng)絡(luò)。在實(shí)際應(yīng)用中,這些專家通常是前饋網(wǎng)絡(luò) (FFN),但它們也可以是更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),甚至可以是 MoE 層本身,從而形成層級式的 MoE 結(jié)構(gòu)。

●門控網(wǎng)絡(luò)或路由: 這個部分用于決定哪些Token被發(fā)送到哪個專家。Token的路由方式是 MoE 使用中的一個關(guān)鍵點(diǎn),因?yàn)槁酚善饔蓪W(xué)習(xí)的參數(shù)組成,并且與網(wǎng)絡(luò)的其他部分一同進(jìn)行預(yù)訓(xùn)練。

和傳統(tǒng)的MoE架構(gòu)相比,DeepSeekMoE使用更細(xì)粒度的專家,并將一些專家隔離為共享專家,減少專家間的知識冗余。

門控網(wǎng)絡(luò)路由策略:TopK表示第t個Token和所有路由專家計(jì)算出的親和力分?jǐn)?shù)中K個最高分?jǐn)?shù)的集合,在DeepSeekV3中,使用sigmoid函數(shù)計(jì)算親和力分?jǐn)?shù),然后在所有選擇的親和力分?jǐn)?shù)中應(yīng)用歸一化來生成門控值。

通常在MoE模型的訓(xùn)練過程中,不同專家因?yàn)槁酚刹呗缘囊蛩貢?dǎo)致接收的訓(xùn)練數(shù)據(jù)分布不均,比如所有的Token都被發(fā)送到只有少數(shù)幾個受歡迎的專家,那么有些專家就可能沒有被訓(xùn)練到。

業(yè)界通用的解決方案就是引入輔助損失,但是,有時候過大的輔助損失會損害模型性能。

為了在負(fù)載均衡和模型性能之間取得更好的平衡,DeepSeek開創(chuàng)了一種無輔助損失的負(fù)載均衡策略:為每個專家引入一個偏差項(xiàng)bi,并將其添加到相應(yīng)的親和力分?jǐn)?shù)Si,t 是的中以確定top-K路由,具體來說:如果其對應(yīng)的專家過載,我們將偏差項(xiàng)減少γ;如果其對應(yīng)的專家負(fù)載不足,我們將偏差項(xiàng)增加γ,其中γ是一個稱為偏差更新速度的超參數(shù)。

門控網(wǎng)絡(luò)本質(zhì)上就是一個softmax疊加一個分類網(wǎng)絡(luò),那么輔助loss往往就是添加一個懲罰項(xiàng),對輸出過大的 logits 進(jìn)行懲罰,鼓勵模型生成更加適度的 logits 值,防止模型生成過于極端的輸出。

2.1.2 MLA 多頭潛在注意力

大模型推理過程KV Cache機(jī)制一般是限制推理效率的一大瓶頸,而標(biāo)準(zhǔn)的Transformer 架構(gòu)里面的MHA架構(gòu)會產(chǎn)出非常多的KV Cache,為了減少對應(yīng)的KV Cache業(yè)界實(shí)踐過很多方案,例如PagedAttention、多查詢注意力(MQA)和分組查詢注意力(GQA),但是性能相比原生的MHA有一定差距。

DeepSeek-V2,提出一種創(chuàng)新的注意力機(jī)制:多頭潛在注意力(MLA)。

相比MQA的KV共用和GQA的KV分組,MLA的核心是注意力鍵和值的低秩聯(lián)合壓縮,以減少推理過程中的鍵值(KV)緩存。相比MHA具有更好的性能,但需要的 KV 緩存量要少得多。

低秩矩陣是指其秩(rank)遠(yuǎn)小于其行數(shù)和列數(shù)的矩陣。

假設(shè)我們有一個矩陣,其實(shí)際結(jié)構(gòu)允許它被分解為兩個較小的矩陣的乘積。這種情況通常意味著原矩陣是低秩的。

假設(shè)我們有一個4×5的矩陣A,這個矩陣可以通過兩個更小的矩陣的乘積來表示,比如一個4×2的矩陣B和一個2×5的矩陣C。這意味著原始矩陣A的信息可以通過這兩個較小的矩陣來捕捉,表明A是一個低秩矩陣。

低秩壓縮計(jì)算核心過程:

2.2 訓(xùn)練推理核心技術(shù)

2.2.1 訓(xùn)練框架HAI-LLM

DeepSeek-V3在一個配備了2048個NVIDIA H800 GPU的集群上進(jìn)行訓(xùn)練,使用的是自研的HAI-LLM框架,框架實(shí)現(xiàn)了四種并行訓(xùn)練方式:ZeRO 支持的數(shù)據(jù)并行、流水線并行、張量切片模型并行和序列并行

這種并行能力支持不同工作負(fù)載的需求,可以支持?jǐn)?shù)萬億規(guī)模的超大模型并擴(kuò)展到數(shù)千個 GPU,同時還自研了一些配套的高性能算子haiscale,可以幫助 HAI-LLM 極大優(yōu)化大模型訓(xùn)練的顯存效率和計(jì)算效率。


2.2.2 核心算法DualPipe-創(chuàng)新流水線并行算法

i.通信計(jì)算重疊優(yōu)化

DeepSeek-V3應(yīng)用了16路流水線并行(PP),跨越8個節(jié)點(diǎn)的64路專家并行(EP),以及ZeRO-1數(shù)據(jù)并行(DP)。

與現(xiàn)有的流水線并行方法相比,DualPipe的流水線氣泡更少。同時重疊了前向和后向過程中的計(jì)算和通信階段,解決了跨節(jié)點(diǎn)專家并行引入的沉重通信開銷的挑戰(zhàn)。

DualPipe的關(guān)鍵思想是重疊一對單獨(dú)的前向和后向塊中的計(jì)算和通信:將每個塊劃分為四個組件:注意力、all-all調(diào)度、MLP和all-all組合

例如,假設(shè)我們有兩個計(jì)算塊,A和B:

1.在塊A進(jìn)行前向傳播計(jì)算時,可以同時進(jìn)行塊B的后向傳播通信過程。

2.當(dāng)塊A完成前向傳播計(jì)算后,開始它的通信過程;而塊B則開始它的前向傳播計(jì)算。

通過優(yōu)化排列這些功能模塊,并精確調(diào)控用于通信和計(jì)算的 GPU SM資源分配比例,系統(tǒng)能夠在運(yùn)行過程中有效隱藏全節(jié)點(diǎn)通信和 PP 通信開銷。

可以看出DeepSeek在PP這塊,做了大量的通信計(jì)算重疊優(yōu)化,從技術(shù)報告中看出,即使是細(xì)粒度的all-all專家通信,all-all的通信開銷幾乎為0。

●計(jì)算通信重疊

在深度學(xué)習(xí)大規(guī)模分布式訓(xùn)練過程中,通信的速度往往落后于計(jì)算的速度,如何在通信的gap期間內(nèi)并行做一些計(jì)算就是高性能計(jì)算和通信重疊,是實(shí)現(xiàn)高效訓(xùn)練的關(guān)鍵因素。

●流水線并行氣泡問題

一些大的模型會采用流水線并行策略,將模型的不同層放在不同的GPU上,但是不同層之間有依賴關(guān)系,后面層需要等前面的計(jì)算完才能開始計(jì)算,會導(dǎo)致GPU在一段時間是閑置的,如下圖所示:

ii.跨節(jié)點(diǎn)全對全通信

DeepSeek還專門定制了高效的跨節(jié)點(diǎn)all-all通信內(nèi)核(包括調(diào)度和組合)。

具體來說:跨節(jié)點(diǎn) GPU 通過 IB 完全互連,節(jié)點(diǎn)內(nèi)通信通過 NVLink 處理,每個Token最多調(diào)度到 4個節(jié)點(diǎn),從而減少 IB 通信量。同時使用warp專業(yè)化技術(shù)做調(diào)度和組合的優(yōu)化。

在調(diào)度過程中,(1) IB 發(fā)送,(2) IB 到 NVLink 轉(zhuǎn)發(fā),以及 (3) NVLink 接收分別由各自的 warp 處理。分配給每個通信任務(wù)的 warp 數(shù)會根據(jù)所有 SM 上的實(shí)際工作負(fù)載動態(tài)調(diào)整。

在合并過程中,(1) NVLink 發(fā)送,(2) NVLink 到 IB 的轉(zhuǎn)發(fā)和累積,以及 (3) IB 接收和累積也由動態(tài)調(diào)整的 warp 處理。

通過這種方式,IB 和 NVLink 的通信實(shí)現(xiàn)完全重疊,每個 token 能夠在不產(chǎn)生 NVLink 額外開銷的情況下,在每個節(jié)點(diǎn)上平均高效選擇 3.2 個專家。這意味著,雖然 DeepSeek-V3 實(shí)際只選擇 8 個路由專家,但它可以將這個數(shù)字?jǐn)U展到最多 13 個專家(4 個節(jié)點(diǎn) × 3.2 個專家/節(jié)點(diǎn)),同時保持相同的通信成本。

DSV3采用了1個共享專家和256個路由專家的MoE架構(gòu),每個token會激活8個路由專家。

2.2.3 用于FP8訓(xùn)練的混合精度框架

這里并沒有將全量參數(shù)FP8量化訓(xùn)練,大多數(shù)計(jì)算密集型操作都在FP8中進(jìn)行,而一些關(guān)鍵操作則戰(zhàn)略性地保留其原始數(shù)據(jù)格式,以平衡訓(xùn)練效率和數(shù)值穩(wěn)定性。

哪些算子啟用FP8量化去計(jì)算?取舍邏輯是什么?

■大多數(shù)核心計(jì)算過程,即 GEMM 運(yùn)算,都以 FP8 精度實(shí)現(xiàn)

■涉及對低精度計(jì)算的敏感性的算子,仍然需要更高的精度

■一些低成本算子也可以使用更高的精度

以下組件保留了原始精度(例如,BF16 或 FP32):Embedding模塊、輸出頭、MoE 門控模塊、Normalization算子以及Attention算子。

如何提高低精度訓(xùn)練精度?

■細(xì)粒度量化

對激活,在token維度采用group-wise的量化(1*128);對權(quán)重,采用128* 128的block-wise量化。

■提高累加精度

在 TensorCore 上執(zhí)行矩陣 MMA(矩陣乘法累加)操作時,每當(dāng)累加達(dá)到一個間隔時,這些部分結(jié)果會被傳輸?shù)?CUDA Cores 上的 FP32 寄存器中,并在那里進(jìn)行FP32 精度的累加計(jì)算。

2.2.4 MTP的訓(xùn)練目標(biāo)

DeepSeekV3訓(xùn)練過程設(shè)置了多Token預(yù)測的目標(biāo),從技術(shù)報告的消融實(shí)驗(yàn)看出,確實(shí)提高了模型在大多數(shù)評估基準(zhǔn)上的性能,而且MTP模塊還可以用于推理加速。

2.2.5 推理部署方案

DeepSeek-V3 整體參數(shù)量達(dá)到了671B,如此多的參數(shù)量,我們看下他的一個部署方案:

推理部署采用了預(yù)填充(Prefilling)和解碼(Decoding)分離的策略,確保了在線服務(wù)的高吞吐量和低延遲。通過冗余專家部署和動態(tài)路由策略,模型在推理時保持了高效的負(fù)載均衡。

整套部署方案下來基本是跨機(jī)分布式推理。

2.2.5.1 Prefill 階段

這個階段簡單說就是并行處理用戶的Prompt,將其轉(zhuǎn)為KV Cache。

預(yù)填充階段的最小部署單元由4個節(jié)點(diǎn)組成,每個節(jié)點(diǎn)配備32個GPU。注意力部分采用4路張量并行(TP4)和序列并行(SP),并結(jié)合8路數(shù)據(jù)并行(DP8)。其較小的TP規(guī)模(4路)限制了TP通信的開銷。對于MoE部分,我們使用32路專家并行(EP32)

2.2.5.2 Decoder 階段

這個階段就是做自回歸的每個Token的輸出。

解碼階段的最小部署單元由40個節(jié)點(diǎn)和320個GPU組成。注意力部分采用TP4和SP,結(jié)合DP80,而MoE部分使用EP320。對于MoE部分,每個GPU只承載一個專家,64個GPU負(fù)責(zé)承載冗余專家和共享專家

三、總結(jié):為什么DeepSeekV3訓(xùn)練成本這么低?

訓(xùn)練成本主要由模型架構(gòu)以及訓(xùn)練架構(gòu)所決定,而且兩者一定是相輔相成。從報告中可以看出以下幾個原因:

I.MLA 機(jī)制:通過對KV做聯(lián)合低秩壓縮大幅減少KV Cache,相比業(yè)界從KV數(shù)量角度做KV Cache的減少,MLA 的壓縮實(shí)現(xiàn)很考驗(yàn)研究團(tuán)隊(duì)的基本功。

II.FP8 訓(xùn)練:通過低精度計(jì)算減少了 GPU 內(nèi)存使用和計(jì)算開銷,技術(shù)報告中也提到FP8混合精度訓(xùn)練框架是首次在一個極大規(guī)模的模型上驗(yàn)證了其有效性,這一點(diǎn)也看出DeepSeek的Infra工程團(tuán)隊(duì)的底蘊(yùn)。

III.MoE 架構(gòu):通過MoE稀疏激活機(jī)制大幅減少了計(jì)算量,相比Qwen和Llama的Dense架構(gòu)有很大的訓(xùn)推先天優(yōu)勢,不過難題(專家的負(fù)載、通信、路由)也給到了Infra工程團(tuán)隊(duì)。

三、為什么是DeepSeek?

在硅谷,類似DeepSeek這樣的AI創(chuàng)新并不少有,只是這次是一家中國公司做出了這個動作,相比傳統(tǒng)的‘美國創(chuàng)新、中國應(yīng)用’的模式顯得格外的讓人興奮。

從最近的一些訪談以及DeepSeek的技術(shù)報告中也能看出以下幾點(diǎn):

1、大模型是一個知識密集型產(chǎn)業(yè),如何組織高密度人才?顯然DeepSeek做到了

2、大模型技術(shù)沒有魔法,更多時候就是考驗(yàn)基本功和驅(qū)動力

3、不以商業(yè)化為第一要義,很多時候能輕裝上陣

參考資料

1、Better & Faster Large Language Models via Multi-token Prediction

2、https://kexue.fm/archives/10091

3、https://arxiv.org/pdf/2404.19737v1

4、https://arxiv.org/pdf/2412.19437

5、https://arxiv.org/pdf/2405.04434

6、https://www.zhihu.com/question/8423473404

7、https://arxiv.org/pdf/1811.06965

文章轉(zhuǎn)載自:漫談DeepSeek及其背后的核心技術(shù)

上一篇:

如何讓AI生成的文本更有人味

下一篇:

如何獲取 Grok3 API 密鑰(分步指南)
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊

多API并行試用

數(shù)據(jù)驅(qū)動選型,提升決策效率

查看全部API→
??

熱門場景實(shí)測,選對API

#AI文本生成大模型API

對比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個渠道
一鍵對比試用API 限時免費(fèi)

#AI深度推理大模型API

對比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費(fèi)