說明:圖中未包含所有 vendor(歡迎留言補充),部分 vendor 會涉及多個領域。
一、芯片層
芯片層是計算系統的物理基礎,負責執行底層算術邏輯操作,其設計直接影響算力密度、能耗比及并行計算能力。國外有 NVIDIA、AMD 等 GPU 廠商,還有 Groq 等專門針對 AI 推理進行性能優化的芯片制造商。國內有阿里的平頭哥、華為的 AScend、寒武紀,以及多家創業公司,包括摩爾線程、燧原科技、沐曦集成、壁仞等。
目前,平頭哥玄鐵、華為的 AScend、沐曦集成等均已提供 DeepSeek 的適配,緩解芯片供給側壓力。
二、面向芯片的編程語言和芯片開發包層
硬件編程的抽象接口,實現高效資源調度與指令映射,平衡編程便利性與計算效率。NVIDIA CUDA、AMD ROCm、平頭哥 HGAI、Ascend C、寒武紀 BangC、摩爾線程 MUSA、燧原科技 Tops Riser、沐曦集成MXMACA、壁仞 SUPA,除了提供面向硬件的編程語言,還會提供庫、工具和文檔等一系列開發者工具。NVIDIA CUDA 技術生態繁榮,對開發者而言,切換編程語言,成本較大。
三、通用深度學習框架層
提供一系列基礎工具和功能,簡化了大模型的開發、訓練和部署流程。教練水平決定訓練效果,PyTorch 和 TensorFlow 是兩大“頂流私教”,主流框架包括:
PyTorch: 由 Facebook AI Research 開發并維護。采用動態計算圖技術,在執行過程中能動態調整計算流程,與 Python 深度集成,提供直觀的 API 接口和靈活的編程體驗。適用于快速原型開發、研究和實驗,尤其是需頻繁修改和迭代模型的場景。
TensorFlow: 由谷歌基于 DistBelief 研發的第二代人工智能學習系統,可用于 Python、JavaScript、C++ 和 Java 等多種編程語言,廣泛應用于語音識別、圖像識別等機器學習和深度學習領域,支持 CNN、RNN 和 LSTM 等算法。
JAX: 由谷歌開發,旨在為科研人員提供一個既能夠方便進行算法實驗,又能充分利用硬件資源加速計算的工具,尤其在需要進行自動求導和并行計算的場景中表現出色。
MindSpore: 有華為開源,是一種適用于端邊云場景的新型開源深度學習訓練/推理框架,為Ascend AI 處理器提供原生支持,以及軟硬件協同優化。
PaddlePaddle: 由百度開源,支持多種深度學習模型的高效訓練,能在多 GPU 和多節點環境下分布式訓練,優化計算資源使用效率。
MXNet: 由 Carlos Guestrin 在華盛頓大學共同開發,是亞馬遜云計算服務的首選深度學習框架,支持 C++、Python、Java、Julia、MATLAB、JavaScript、Go、R、Scala 等多種編程語言。
Caffe: 由伯克利人工智能研究小組和伯克利視覺和學習中心開發,內核用 C++ 編寫,有 Python 和 Matlab 相關接口。以模塊化原則設計,實現了對新的數據格式、網絡層和損失函數的輕松擴展。
四、大模型推理加速層
針對推理階段優化計算效率與資源利用率,通過編譯、量化、批處理等技術降低延遲與成本。這一層參與的行業玩家眾多,有芯片制造商、云廠商、軟件企業、模型社區、科研機構,提供包括開源方案和商業服務,后端接入大模型,提供 API 調用服務。
推理加速的本質是“顯存刺客” vs “算力魔術師”,誰能用更少的資源跑出更高的性能,誰就是贏家。業內主流方案包括:
vLLM: 由 UC Berkeley 研究團隊開源的大語言模型推理和服務框架,采用 PagedAttention 技術,有效減少內存碎片,提升內存利用率,支持多種大語言模型,如通義、LLaMA 等,與 Hugging Face 生態集成良好,可直接加載 HF 上的模型權重。
TensorRT-LLM: 是 NVIDIA 基于 TensorRT 優化的 LLM 開源推理庫,深度集成 NVIDIA GPU 硬件特性,如 Tensor Core,可與 NVIDIA 其他工具和庫(如 CUDA、cuBLAS 等)無縫配合,還可以與 Triton 框架結合,以提升服務在 NVIDIA GPU 上的推理效率。
ONNX Runtime: 輕量級、跨平臺的高性能推理引擎,由微軟開發并維護,旨在打破不同深度學習框架之間的壁壘,使得模型可以在多種環境中高效運行,提高模型的可移植性和部署效率。
TGI: 由Hugging Face 團隊開發,緊密集成 Hugging Face 的 Transformer 庫,可輕松加載和使用 Hugging Face 上的眾多模型;支持分布式推理,可在多 GPU 環境下擴展服務能力。
Deepytorch Inference: 阿里云 GPU 云服務器自研的AI推理加速器,專注于為Torch模型提供高性能的推理加速。通過對模型的計算圖進行切割、執行層融合以及高性能OP的實現,大幅度提升PyTorch的推理性能。
BladeLLM: 阿里云人工智能平臺 PAI 自研的為大語言模型優化的推理引擎,在模型計算、生成引擎、服務框架、應用場景層均作了提升,性能優于主流開源框架。
SiliconLLM: 硅基流動科技推出的專注于大模型推理加速的框架,自主研發了高效的算子和調度策略,支持多種硬件平臺,可與多種深度學習框架協同工作。
五、大模型層
國外主流方案:OpenAI 的 GPT、Google 的 Gemini、Meta 的 LLaMA、Anthropic 的 Claude、Mistral AI、X 的 Grok,其中,Meta 的 LLaMA 和 Mistral AI 對模型核心能力進行了開源,其他大模型也有通過技術報告分享,或者部分能力開源的方式反饋社區。
國內主流方案:阿里云 Qwen、DeepSeek、百度文心一言、字節豆包、騰訊云混元、訊飛星火、kimi 等六小龍…其中,Qwen、DeepSeek 對模型核心能力進行了開源,其他大模型也有通過技術報告分享,或者部分能力開源的方式反饋社區。
開源 LLM 已經不再僅僅是閉源模型的追隨者,而是開始主導 AI 發展的方向,DeepSeek、Qwen 和 LLaMA 是目前領跑的開源項目。
六、計算平臺層
計算平臺層,由于依賴 GPU 算力資源,國內以公共云廠商為主,例如阿里云的人工智能計算平臺 PAI、百煉、提供 Serverless GPU 能力的函數計算 FC、容器計算服務 ACS、GPU 服務器等。
國外因不受美國出口管制條例的影響,以及大模型技術生態更加完善的原因,vendor 種類和數量更加豐富。除了公共云廠商提供的算力服務外,還有芯片廠商、軟件廠商,均提供了推理計算服務。例如 Groq、together.io、Fireworks.ai 等。
by EricFlaningam on X
隨著國產 GPU 和 AI 芯片能力的增強,相信這一層國內的 vendor 也會越來越多,提供更加豐富多樣的推理計算服務,進一步完善大模型產業鏈。
七、應用編排層
大模型的應用編排層是大模型落地產業的核心中間層,是連接大模型能力與業務場景的”粘合劑”,主要用于整合模型、工具、數據和服務,實現復雜 AI 任務的自動化流程構建與執行,并提升生成效果。
Langchain: 由 Harrison Chase 于2022年創建的開源項目,通過 Chain、Agent、Memory 三大組件,像搭樂高一樣組合工具鏈,支持 OpenAI 等30+模型 API,集成 Wikipedia、Wolfram Alpha 等200+外部服務,內置Chroma/Pinecone 等向量數據庫接口,實現知識庫實時檢索增強。
LlamaIndex: 聚焦于數據處理和索引構建,適用于需要對大量數據進行有效管理和利用的場景,特別是當你希望 LLM 能夠基于特定領域的知識進行回答。
以上兩個開源項目,適用于 Python 開發者。
Spring AI Alibaba: 專為 Spring 和 Java 開發者設計的智能體開發框架,對 AI 智能體應用的通用開發范式做了很好的抽象,從原子能力層次如對話模型接入、提示詞模板到函數調用,再到高層次抽象如智能體編排、對話記憶,和國內大模型做了深度適配,還提供了應用從部署到運維的最佳實踐,包括網關、配置管理、部署、可觀測等。
以上三個開源項目,都是代碼級編程框架,自由度高。
Dify: 是一個開源的 LLM 應用開發平臺,提供從 Agent 構建到 AI workflow 編排、RAG 檢索、模型管理等能力,輕松構建和運營生成式 AI 原生應用。
阿里云百煉: 是一站式的大模型開發及應用構建平臺。不論是開發者還是業務人員,都能深入參與大模型應用的設計和構建。無須代碼,通過簡單的界面操作,就可以開發 AI 應用。
此外,也可以使用云原生應用開發平臺 CAP+函數計算 FC,以 Serverless 的范式,調用算力資源和編排 AI 應用。
以上三個是低代碼平臺,使用門檻更低,其中,百煉和云原生應用開發平臺 CAP+函數計算 FC,提供了推理的算力支持。
八、流量管理層
大模型的流量層是大模型服務化部署的核心中間件,主要負責流量、服務、安全和 API 的管理,確保大模型服務在高負載下仍能保持穩定、低延遲的響應。此前國內的大模型需求集中在訓練階段,對流量管理層的需求并不強烈,但隨著推理需求的激增,流量管理也將成為類似 Web 應用架構中不可或缺的角色。
但不同于 Web 應用,大模型應用對流量、服務、安全和 API 的管理,呈現了新的特征、提出了新的需求:
長連接。由 AI 場景常見的 Websocket 和 SSE 協議決定,長連接的比例很高,要求網關更新配置操作對長連接無影響,不影響業務。
高延時。LLM 推理的響應延時比普通應用要高出很多,使得 AI 應用面向惡意攻擊很脆弱,容易被構造慢請求進行異步并發攻擊,攻擊者的成本低,但服務端的開銷很高。
大帶寬。結合 LLM 上下文來回傳輸,以及高延時的特性,AI 場景對帶寬的消耗遠超普通應用,網關如果沒有實現較好的流式處理能力和內存回收機制,容易導致內存快速上漲。
相比傳統 Web 應用,大模型應用的內容生成時間更長,對話連續性對用戶體驗至關重要,如何避免后端插件更新導致的服務中斷?
相比傳統 Web 應用,大模型應用在服務端處理單個請求的資源消耗會大幅超過客戶端,來自客戶端的攻擊成本更低,后端的資源開銷更大,如何加固后端架構穩定性?
很多 AI 應用都會通過免費調用策略吸引用戶,如何防止黑灰產爬取免費調用量封裝成收費 API 所造成的資損?
不同于傳統 Web 應用基于信息的匹配關系,大模型應用生成的內容則是基于人工智能推理,如果保障生產內容的合規和安全?
當接入多個大模型 API 時,如何屏蔽不同模型廠商 API 的調用差異,降低適配成本?
針對以上新特征、新需求,傳統 Nginx 網關已經無法應對,因此國內外均出現了大量面向大模型場景的新一代開源網關。
Higress: 內核基于 Istio 和 Envoy,并基于生產業務需求做了增強,可用于部署 Web 類應用和大模型應用,在 AI 領域,已經支撐了通義千問 APP、百煉大模型 API、機器學習 PAI 平臺、FastGPT、中華財險等 AI 業務。
Kong AI Gateway: 基于 Kong 的插件架構,Kong AI Gateway 具有很強的可擴展性。開發者可以根據自己的需求開發自定義插件,以實現特定的功能,如自定義的流量控制策略、數據轉換、模型框架的調度等。
阿里云云原生 API 網關: 提供大模型相關的 API 的全生命周期管理,和阿里云其他云產品集成體驗好,例如 PAI、函數計算等,同時基于 Higress 提供了諸多開源增強能力。
此外,還有大模型應用的實施層,這一層中的 vendor 或是具備行業 know-how 的能力,或是具備大模型基建 know-how 的能力,他們充分利用開源大模型、開源中間件,并結合各自的技術沉淀,提供集成、線下部署等多元化的服務,也是大模型技術和應用生態的關鍵角色,由于廠家眾多,不再一一列舉。
文章轉載自: 大模型推理服務全景圖
我們有何不同?
API服務商零注冊
多API并行試用
數據驅動選型,提升決策效率
查看全部API→