說明:圖中未包含所有 vendor(歡迎留言補充),部分 vendor 會涉及多個領域。

一、芯片層

芯片層是計算系統的物理基礎,負責執行底層算術邏輯操作,其設計直接影響算力密度、能耗比及并行計算能力。國外有 NVIDIA、AMD 等 GPU 廠商,還有 Groq 等專門針對 AI 推理進行性能優化的芯片制造商。國內有阿里的平頭哥、華為的 AScend、寒武紀,以及多家創業公司,包括摩爾線程、燧原科技、沐曦集成、壁仞等。

目前,平頭哥玄鐵、華為的 AScend、沐曦集成等均已提供 DeepSeek 的適配,緩解芯片供給側壓力。

二、面向芯片的編程語言和芯片開發包層

硬件編程的抽象接口,實現高效資源調度與指令映射,平衡編程便利性與計算效率。NVIDIA CUDA、AMD ROCm、平頭哥 HGAI、Ascend C、寒武紀 BangC、摩爾線程 MUSA、燧原科技 Tops Riser、沐曦集成MXMACA、壁仞 SUPA,除了提供面向硬件的編程語言,還會提供庫、工具和文檔等一系列開發者工具。NVIDIA CUDA 技術生態繁榮,對開發者而言,切換編程語言,成本較大。

三、通用深度學習框架層

提供一系列基礎工具和功能,簡化了大模型的開發、訓練和部署流程。教練水平決定訓練效果,PyTorch TensorFlow 是兩大“頂流私教”,主流框架包括:

四、大模型推理加速層

針對推理階段優化計算效率與資源利用率,通過編譯、量化、批處理等技術降低延遲與成本。這一層參與的行業玩家眾多,有芯片制造商、云廠商、軟件企業、模型社區、科研機構,提供包括開源方案和商業服務,后端接入大模型,提供 API 調用服務。

推理加速的本質是“顯存刺客” vs “算力魔術師”,誰能用更少的資源跑出更高的性能,誰就是贏家。業內主流方案包括:

五、大模型層

開源 LLM 已經不再僅僅是閉源模型的追隨者,而是開始主導 AI 發展的方向,DeepSeek、Qwen 和 LLaMA 是目前領跑的開源項目。

六、計算平臺層

計算平臺層,由于依賴 GPU 算力資源,國內以公共云廠商為主,例如阿里云的人工智能計算平臺 PAI、百煉、提供 Serverless GPU 能力的函數計算 FC、容器計算服務 ACS、GPU 服務器等。

國外因不受美國出口管制條例的影響,以及大模型技術生態更加完善的原因,vendor 種類和數量更加豐富。除了公共云廠商提供的算力服務外,還有芯片廠商、軟件廠商,均提供了推理計算服務。例如 Groq、together.io、Fireworks.ai 等。

by EricFlaningam on X

隨著國產 GPU 和 AI 芯片能力的增強,相信這一層國內的 vendor 也會越來越多,提供更加豐富多樣的推理計算服務,進一步完善大模型產業鏈。

七、應用編排層

大模型的應用編排層是大模型落地產業的核心中間層,是連接大模型能力與業務場景的”粘合劑”,主要用于整合模型、工具、數據和服務,實現復雜 AI 任務的自動化流程構建與執行,并提升生成效果。

以上兩個開源項目,適用于 Python 開發者。

以上三個開源項目,都是代碼級編程框架,自由度高。

此外,也可以使用云原生應用開發平臺 CAP+函數計算 FC,以 Serverless 的范式,調用算力資源和編排 AI 應用。

以上三個是低代碼平臺,使用門檻更低,其中,百煉和云原生應用開發平臺 CAP+函數計算 FC,提供了推理的算力支持。

八、流量管理層

大模型的流量層是大模型服務化部署的核心中間件,主要負責流量、服務、安全和 API 的管理,確保大模型服務在高負載下仍能保持穩定、低延遲的響應。此前國內的大模型需求集中在訓練階段,對流量管理層的需求并不強烈,但隨著推理需求的激增,流量管理也將成為類似 Web 應用架構中不可或缺的角色。

但不同于 Web 應用,大模型應用對流量、服務、安全和 API 的管理,呈現了新的特征、提出了新的需求:

針對以上新特征、新需求,傳統 Nginx 網關已經無法應對,因此國內外均出現了大量面向大模型場景的新一代開源網關。

此外,還有大模型應用的實施層,這一層中的 vendor 或是具備行業 know-how 的能力,或是具備大模型基建 know-how 的能力,他們充分利用開源大模型、開源中間件,并結合各自的技術沉淀,提供集成、線下部署等多元化的服務,也是大模型技術和應用生態的關鍵角色,由于廠家眾多,不再一一列舉。

文章轉載自:大模型推理服務全景圖

上一篇:

在 Claude 上復刻 DeepSeek-R1 效果

下一篇:

破解 vLLM + DeepSeek 規?;渴鸬摹安豢赡苋恰?/h5>
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數據驅動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費