圍繞 vLLM 展開的各種商業活動也日益活躍。與眾多大語言模型不同的是,DeepSeek 免費提供了可供用戶交互的界面。個人用戶可以無門檻直接使用,但對于企業而言,穩定性、數據隱私、不參與模型訓練參數收集等能力至關重要。為此,企業往往選擇基于 vLLM 自建推理應用服務。與個人用戶對 LLM 的推理需求不同,企業級應用更加注重 vLLM 的大規模部署及其作為產品基礎形成對外提供服務的能力。然而,在規模化使用 vLLM 的過程中,企業面臨著一系列挑戰。

二、規模化部署 vLLM 的難點

包括 DeepSeek 在內的 LLM 具備以下三大特點,各自帶來不同挑戰:

  1. 大規模參數量:LLM 之所以被稱為“大”語言模型,很大程度上是因為其擁有極其龐大的參數規模,導致模型的體積通常可達數十至數百 GB。這種巨大的模型體積在服務啟動時帶來了模型文件下載、GPU 加載漫長的問題,需要設計專門的加速機制來應對。同時也額外增加了日常的模型上傳、下載、調試和發布等產品迭代流程的額外時間成本。
  2. 高效推理能力:除了克服大鏡像大模型帶來的冷啟動問題,LLM 還必須滿足實時性要求極高的交互需求,能夠在數秒甚至毫秒級別內返回推理結果,并確保每輪對話都能持續穩定高效地進行。這依賴 vLLM 與內嵌模型的交互能否合理利用緩存數據,維持對話的連續性和響應的速度。
  3. 上下文理解:在多數應用場景中,LLM 通過對話提供推理服務,因此服務必須確保每行對話之間的連貫性。避免每次對話被分配到不同的后端資源導致上下文信息丟失。LLM 同時需要穩定的長連接,為用戶提供一個持久的交互窗口。這意味著底層系統必須能夠有效地管理和協調眾多底層資源生命周期,確保對話的連貫性和穩定性。

在構建和運營大規模顯卡集群以支持 vLLM 時除了需要解決上述的 LLM 推理的性能及穩定性以外,還要關注成本。其中的主要難點在于底層顯卡資源利用率的精確管控,資源使用的均衡性,以及顯卡本身的高昂費用:

  1. 資源利用與波峰波谷管理:vLLM 業務對顯卡集群的資源消耗呈現出明顯的波峰和波谷特性。為了確保在業務高峰時段有足夠的計算能力,企業通常會提前購買足量的顯卡來覆蓋峰值需求。然而,在非高峰時段(波谷),大部分顯卡將處于空閑狀態,造成資源浪費。這種時間上的使用不均,不僅增加了硬件閑置的成本,也降低了投資回報率。
  2. 資源使用不均衡與服務質量:即使在業務高峰期,顯卡資源的使用也可能出現不均衡的情況。調度策略不當可能導致某些服務器的顯卡、內存和 CPU 資源過度擠兌,而其他服務器則較為空閑。這種負載不均衡現象會影響整體的服務質量,降低用戶體驗。
  3. 云服務選擇困境:使用云端提供的彈性計算資源雖然可以緩解本地顯卡資源的波峰波谷問題,但現有的云服務選項要么 GPU 實例費用昂貴,要么面臨冷啟動慢的問題,又或者無法滿足實時彈性的要求。這使得企業在選擇采用云服務時陷入兩難境地。
  4. 自購顯卡的額外開銷:自行采購顯卡不僅初期投入大,而且由于市場上不同類型的顯卡供應不穩定,導致資源供給不可預期。此外,顯卡資源相對緊缺的情況下,企業可能需要額外支出用于囤積顯卡,進一步增加了成本負擔。

“不可能三角”

總結上述的各項問題,都可以將其歸類為“不可能三角”:性能、成本與穩定性三者難以同時滿足。具體來說:

vLLM 集群的“不可能三角”關乎整個服務架構的穩固性,基礎不牢則地動山搖。一個完整的企業級產品不僅要求具備強大的資源基座,還需在此之上搭建日常的開發迭代、模型管理、推理過程指標可觀測性、運維等一系列瑣碎但不可或缺的功能。這些全部能力疊加在一起才能足夠支撐一個企業級產品。

DevOps

為了高效管理和優化 vLLM 服務,企業在日常開發與運維中需應對以下幾個關鍵領域:

面對這些挑戰,企業不僅需要強大的技術支持以實現 vLLM 的高效運作,還需制定合理的策略來平衡“不可能三角”之間的關系,確保規模化 vLLM 部署下的應用對外服務能力。

三、FC GPU 預留實例閑置計費

正所謂“打蛇打七寸”,針對 DeepSeek 以及眾多 LLM 的特性,函數計算 (FC) 提供了通用性的解決方案——GPU 預留實例閑置計費,精準解決了性能、成本與穩定性之間的平衡難題:

  1. 性能優化:通過預先啟動 vLLM 服務實例,確保 vLLM 框架及模型已部署完畢。當請求到來時,服務能夠立即喚醒并執行,從而避免了框架與大模型加載帶來的延遲。同時,FC 的產品特性保證每次請求都能得到高效復用集群級別緩存,確保在高吞吐、高并發情況下依然保持快速響應。
  2. 成本控制:FC GPU 閑置預留實例支持靈活的計費模式,當預留實例處于閑置狀態時,企業只需支付少量費用即可保留特定數量的 vLLM 服務實例。活躍時按照正常活躍價格收費。為了進一步降低成本,企業可以使用定時預留功能,根據業務需求動態調整資源池大小,按需管理,確保資源利用的最大化。
  3. 穩定性保障:FC 采用自主研發的調度算法,結合顯存數據管理和調度機制,確保模型到顯卡、請求到 vLLM 容器、vLLM 容器到顯存池之間的高效調度,使得系統能夠在負載高峰期依然保持穩定運行。同時,FC 可維持最長 24 小時的長鏈接,并天然支持 WebSocket 調用方式,確保用戶界面不中斷,為持續對話提供穩定的交互基礎。

FC GPU 預留實例的閑置計費功能不僅提升了 LLM 服務的性能,降低了成本,還確保了系統的穩定性。這種綜合優勢使得企業在面對復雜的業務需求和技術挑戰時,能夠更加從容地提供高質量的服務。

FC 也天然支持高效的開發與運維能力,提供日常迭代、模型管理、多維度可觀測指標、儀表盤以及運維流程,確保企業級產品的完整性和可靠性。除此之外,在請求調用方面,FC 也提供多樣的請求導入機制:

這些特性使得企業可以專注于業務邏輯的創新,而不必擔心底層技術實現的復雜性。

四、部署方式

FC 提供了一套簡便的 vLLM 服務框架與模型解耦的部署流程。由于 vLLM 自身支持 server 端口及路徑要求,因此可以直接接入 FC 使用 GPU 預留實例,開箱即用,無需特殊配置。以下是詳細的部署流程:

1. 上傳 vLLM 鏡像:使用官方提供的 vLLM Docker 鏡像,無需對鏡像進行任何修改,將該鏡像上傳至阿里云容器鏡像服務(ACR)。

2. 創建函數:登錄阿里云控制臺,進入函數計算 3.0 管理頁面,開始創建一個新的 GPU 函數,并選擇適合的運行環境和配置。

3. 配置啟動命令:(為了保證服務的穩定性,需添加 –enforce-eager 參數以關閉急切模式)。

python3 -m vllm.entrypoints.openai.api_server --enforce-eager --model ${NAS中的模型路徑} --trust-remote-code --served-model-name ${LLM模型} ...其他參數配置... --port ${函數暴露端口}

更多參數配置可參考 vLLM 官方文檔,根據具體需求調整配置。

python3 -m vllm.entrypoints.openai.api_server --model /prod/models --trust-remote-code --served-model-name Qwen/Qwen-14B-Chat --gpu-memory-utilization 0.9 --max-model-len 4096 --port 8080

4. 選擇顯卡:對于大語言模型,推薦使用 Ada 系列的 GPU — fc.gpu.ada.1 卡型,并使用整卡顯存以支撐大體積的 LLM 模型。

5. 完成函數創建:按照上述步驟完成所有配置后,點擊“創建”按鈕,等待系統完成初始化。

6. 指定模型掛載路徑:為了實現模型的集中管理和更新,我們強烈建議用戶將模型存儲在 NAS 中。NAS 可以自動掛載到 FC 函數的 vLLM 服務實例中,從而實現模型的無縫集成。

7. 配置預留實例并開啟閑置計費:創建所需數量的預留實例并按需配置定時預留。

8.(可選)綁定自定義域名:通過綁定自定義域名,實現直接通過該域名進行 HTTP 調用,對外提供推理服務。

五、vLLM 應用集成

直接對外提供服務

vLLM 函數配置完成后,可以直接對外暴露自定義域名提供服務。這種方式使得 vLLM 應用能夠立即上線,并為用戶提供便捷的訪問入口。

進一步包裝與集成

如果您希望進一步包裝 vLLM,可以將自定義域名輕松嵌入到上層服務中并封裝調用。企業無需關心底層 vLLM 實例的啟動、調度、負載均衡以及親和性等細節,FC 能夠確保服務的高效與穩定運行。

使用CAP簡化部署

對于不需要觀察 vLLM 實例的用戶,可以直接使用基于 FC 的模型應用平臺(CAP)進一步抽象部署過程,使您能夠快速、輕松地將vLLM應用部署上線,大大節省了時間和精力。

六、總結

通過 FC GPU 預留實例的閑置計費功能,企業用戶能在充分利用 vLLM 的強大功能的同時找到成本、性能、穩定的最佳平衡點,并保持開發和運維的高效性。無論是將 FC vLLM 函數直接對外提供服務,還是深度集成到現有系統中,或是通過 CAP 還是魔搭來簡化部署,都能找到滿足您業務需求的最佳實踐。

文章轉載自:破解 vLLM + DeepSeek 規模化部署的“不可能三角”

上一篇:

大模型推理服務全景圖

下一篇:

如何在IDE里使用DeepSeek-V3 和 DeepSeek-R1 滿血版模型
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數據驅動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費