亚洲午夜精品一级在线,天堂成人精品视频在线观,国产欧美日韩在线

說明：圖中未包含所有 vendor（歡迎留言補充），部分 vendor 會涉及多個領域。

一、芯片層

芯片層是計算系統的物理基礎，負責執行底層算術邏輯操作，其設計直接影響算力密度、能耗比及并行計算能力。國外有 NVIDIA、AMD 等 GPU 廠商，還有 Groq 等專門針對 AI 推理進行性能優化的芯片制造商。國內有阿里的平頭哥、華為的 AScend、寒武紀，以及多家創業公司，包括摩爾線程、燧原科技、沐曦集成、壁仞等。

目前，平頭哥玄鐵、華為的 AScend、沐曦集成等均已提供 DeepSeek 的適配，緩解芯片供給側壓力。

二、面向芯片的編程語言和芯片開發包層

硬件編程的抽象接口，實現高效資源調度與指令映射，平衡編程便利性與計算效率。NVIDIA CUDA、AMD ROCm、平頭哥 HGAI、Ascend C、寒武紀 BangC、摩爾線程 MUSA、燧原科技 Tops Riser、沐曦集成MXMACA、壁仞 SUPA，除了提供面向硬件的編程語言，還會提供庫、工具和文檔等一系列開發者工具。NVIDIA CUDA 技術生態繁榮，對開發者而言，切換編程語言，成本較大。

三、通用深度學習框架層

提供一系列基礎工具和功能，簡化了大模型的開發、訓練和部署流程。教練水平決定訓練效果，PyTorch 和 TensorFlow 是兩大“頂流私教”，主流框架包括：

PyTorch：由 Facebook AI Research 開發并維護。采用動態計算圖技術，在執行過程中能動態調整計算流程，與 Python 深度集成，提供直觀的 API 接口和靈活的編程體驗。適用于快速原型開發、研究和實驗，尤其是需頻繁修改和迭代模型的場景。
TensorFlow：由谷歌基于 DistBelief 研發的第二代人工智能學習系統，可用于 Python、JavaScript、C++ 和 Java 等多種編程語言，廣泛應用于語音識別、圖像識別等機器學習和深度學習領域，支持 CNN、RNN 和 LSTM 等算法。
JAX：由谷歌開發，旨在為科研人員提供一個既能夠方便進行算法實驗，又能充分利用硬件資源加速計算的工具，尤其在需要進行自動求導和并行計算的場景中表現出色。
MindSpore：有華為開源，是一種適用于端邊云場景的新型開源深度學習訓練/推理框架，為Ascend AI 處理器提供原生支持，以及軟硬件協同優化。
PaddlePaddle：由百度開源，支持多種深度學習模型的高效訓練，能在多 GPU 和多節點環境下分布式訓練，優化計算資源使用效率。
MXNet：由 Carlos Guestrin 在華盛頓大學共同開發，是亞馬遜云計算服務的首選深度學習框架，支持 C++、Python、Java、Julia、MATLAB、JavaScript、Go、R、Scala 等多種編程語言。
Caffe：由伯克利人工智能研究小組和伯克利視覺和學習中心開發，內核用 C++ 編寫，有 Python 和 Matlab 相關接口。以模塊化原則設計，實現了對新的數據格式、網絡層和損失函數的輕松擴展。

四、大模型推理加速層

針對推理階段優化計算效率與資源利用率，通過編譯、量化、批處理等技術降低延遲與成本。這一層參與的行業玩家眾多，有芯片制造商、云廠商、軟件企業、模型社區、科研機構，提供包括開源方案和商業服務，后端接入大模型，提供 API 調用服務。

推理加速的本質是“顯存刺客” vs “算力魔術師”，誰能用更少的資源跑出更高的性能，誰就是贏家。業內主流方案包括：

vLLM：由 UC Berkeley 研究團隊開源的大語言模型推理和服務框架，采用 PagedAttention 技術，有效減少內存碎片，提升內存利用率，支持多種大語言模型，如通義、LLaMA 等，與 Hugging Face 生態集成良好，可直接加載 HF 上的模型權重。
TensorRT-LLM：是 NVIDIA 基于 TensorRT 優化的 LLM 開源推理庫，深度集成 NVIDIA GPU 硬件特性，如 Tensor Core，可與 NVIDIA 其他工具和庫（如 CUDA、cuBLAS 等）無縫配合，還可以與 Triton 框架結合，以提升服務在 NVIDIA GPU 上的推理效率。
ONNX Runtime：輕量級、跨平臺的高性能推理引擎，由微軟開發并維護，旨在打破不同深度學習框架之間的壁壘，使得模型可以在多種環境中高效運行，提高模型的可移植性和部署效率。
TGI：由Hugging Face 團隊開發，緊密集成 Hugging Face 的 Transformer 庫，可輕松加載和使用 Hugging Face 上的眾多模型；支持分布式推理，可在多 GPU 環境下擴展服務能力。
Deepytorch Inference：阿里云 GPU 云服務器自研的AI推理加速器，專注于為Torch模型提供高性能的推理加速。通過對模型的計算圖進行切割、執行層融合以及高性能OP的實現，大幅度提升PyTorch的推理性能。
BladeLLM：阿里云人工智能平臺 PAI 自研的為大語言模型優化的推理引擎，在模型計算、生成引擎、服務框架、應用場景層均作了提升，性能優于主流開源框架。
SiliconLLM：硅基流動科技推出的專注于大模型推理加速的框架，自主研發了高效的算子和調度策略，支持多種硬件平臺，可與多種深度學習框架協同工作。

五、大模型層

國外主流方案：OpenAI 的 GPT、Google 的 Gemini、Meta 的 LLaMA、Anthropic 的 Claude、Mistral AI、X 的 Grok，其中，Meta 的 LLaMA 和 Mistral AI 對模型核心能力進行了開源，其他大模型也有通過技術報告分享，或者部分能力開源的方式反饋社區。
國內主流方案：阿里云 Qwen、DeepSeek、百度文心一言、字節豆包、騰訊云混元、訊飛星火、kimi 等六小龍…其中，Qwen、DeepSeek 對模型核心能力進行了開源，其他大模型也有通過技術報告分享，或者部分能力開源的方式反饋社區。

開源 LLM 已經不再僅僅是閉源模型的追隨者，而是開始主導 AI 發展的方向，DeepSeek、Qwen 和 LLaMA 是目前領跑的開源項目。

六、計算平臺層

計算平臺層，由于依賴 GPU 算力資源，國內以公共云廠商為主，例如阿里云的人工智能計算平臺 PAI、百煉、提供 Serverless GPU 能力的函數計算 FC、容器計算服務 ACS、GPU 服務器等。

國外因不受美國出口管制條例的影響，以及大模型技術生態更加完善的原因，vendor 種類和數量更加豐富。除了公共云廠商提供的算力服務外，還有芯片廠商、軟件廠商，均提供了推理計算服務。例如 Groq、together.io、Fireworks.ai 等。

by EricFlaningam on X

隨著國產 GPU 和 AI 芯片能力的增強，相信這一層國內的 vendor 也會越來越多，提供更加豐富多樣的推理計算服務，進一步完善大模型產業鏈。

七、應用編排層

大模型的應用編排層是大模型落地產業的核心中間層，是連接大模型能力與業務場景的”粘合劑”，主要用于整合模型、工具、數據和服務，實現復雜 AI 任務的自動化流程構建與執行，并提升生成效果。

Langchain：由 Harrison Chase 于2022年創建的開源項目，通過 Chain、Agent、Memory 三大組件，像搭樂高一樣組合工具鏈，支持 OpenAI 等30+模型 API，集成 Wikipedia、Wolfram Alpha 等200+外部服務，內置Chroma/Pinecone 等向量數據庫接口，實現知識庫實時檢索增強。
LlamaIndex：聚焦于數據處理和索引構建，適用于需要對大量數據進行有效管理和利用的場景，特別是當你希望 LLM 能夠基于特定領域的知識進行回答。

以上兩個開源項目，適用于 Python 開發者。

Spring AI Alibaba：專為 Spring 和 Java 開發者設計的智能體開發框架，對 AI 智能體應用的通用開發范式做了很好的抽象，從原子能力層次如對話模型接入、提示詞模板到函數調用，再到高層次抽象如智能體編排、對話記憶，和國內大模型做了深度適配，還提供了應用從部署到運維的最佳實踐，包括網關、配置管理、部署、可觀測等。

以上三個開源項目，都是代碼級編程框架，自由度高。

Dify：是一個開源的 LLM 應用開發平臺，提供從 Agent 構建到 AI workflow 編排、RAG 檢索、模型管理等能力，輕松構建和運營生成式 AI 原生應用。
阿里云百煉：是一站式的大模型開發及應用構建平臺。不論是開發者還是業務人員，都能深入參與大模型應用的設計和構建。無須代碼，通過簡單的界面操作，就可以開發 AI 應用。

此外，也可以使用云原生應用開發平臺 CAP+函數計算 FC，以 Serverless 的范式，調用算力資源和編排 AI 應用。

以上三個是低代碼平臺，使用門檻更低，其中，百煉和云原生應用開發平臺 CAP+函數計算 FC，提供了推理的算力支持。

八、流量管理層

大模型的流量層是大模型服務化部署的核心中間件，主要負責流量、服務、安全和 API 的管理，確保大模型服務在高負載下仍能保持穩定、低延遲的響應。此前國內的大模型需求集中在訓練階段，對流量管理層的需求并不強烈，但隨著推理需求的激增，流量管理也將成為類似 Web 應用架構中不可或缺的角色。

但不同于 Web 應用，大模型應用對流量、服務、安全和 API 的管理，呈現了新的特征、提出了新的需求：

長連接。由 AI 場景常見的 Websocket 和 SSE 協議決定，長連接的比例很高，要求網關更新配置操作對長連接無影響，不影響業務。
高延時。LLM 推理的響應延時比普通應用要高出很多，使得 AI 應用面向惡意攻擊很脆弱，容易被構造慢請求進行異步并發攻擊，攻擊者的成本低，但服務端的開銷很高。
大帶寬。結合 LLM 上下文來回傳輸，以及高延時的特性，AI 場景對帶寬的消耗遠超普通應用，網關如果沒有實現較好的流式處理能力和內存回收機制，容易導致內存快速上漲。
相比傳統 Web 應用，大模型應用的內容生成時間更長，對話連續性對用戶體驗至關重要，如何避免后端插件更新導致的服務中斷？
相比傳統 Web 應用，大模型應用在服務端處理單個請求的資源消耗會大幅超過客戶端，來自客戶端的攻擊成本更低，后端的資源開銷更大，如何加固后端架構穩定性？
很多 AI 應用都會通過免費調用策略吸引用戶，如何防止黑灰產爬取免費調用量封裝成收費 API 所造成的資損？
不同于傳統 Web 應用基于信息的匹配關系，大模型應用生成的內容則是基于人工智能推理，如果保障生產內容的合規和安全？
當接入多個大模型 API 時，如何屏蔽不同模型廠商 API 的調用差異，降低適配成本？

針對以上新特征、新需求，傳統 Nginx 網關已經無法應對，因此國內外均出現了大量面向大模型場景的新一代開源網關。

Higress：內核基于 Istio 和 Envoy，并基于生產業務需求做了增強，可用于部署 Web 類應用和大模型應用，在 AI 領域，已經支撐了通義千問 APP、百煉大模型 API、機器學習 PAI 平臺、FastGPT、中華財險等 AI 業務。
Kong AI Gateway：基于 Kong 的插件架構，Kong AI Gateway 具有很強的可擴展性。開發者可以根據自己的需求開發自定義插件，以實現特定的功能，如自定義的流量控制策略、數據轉換、模型框架的調度等。
阿里云云原生 API 網關：提供大模型相關的 API 的全生命周期管理，和阿里云其他云產品集成體驗好，例如 PAI、函數計算等，同時基于 Higress 提供了諸多開源增強能力。

此外，還有大模型應用的實施層，這一層中的 vendor 或是具備行業 know-how 的能力，或是具備大模型基建 know-how 的能力，他們充分利用開源大模型、開源中間件，并結合各自的技術沉淀，提供集成、線下部署等多元化的服務，也是大模型技術和應用生態的關鍵角色，由于廠家眾多，不再一一列舉。

文章轉載自：大模型推理服務全景圖