
PixverseAI互動功能(HUG)在AI擁抱視頻生成中的應用
圍繞 vLLM 展開的各種商業活動也日益活躍。與眾多大語言模型不同的是,DeepSeek 免費提供了可供用戶交互的界面。個人用戶可以無門檻直接使用,但對于企業而言,穩定性、數據隱私、不參與模型訓練參數收集等能力至關重要。為此,企業往往選擇基于 vLLM 自建推理應用服務。與個人用戶對 LLM 的推理需求不同,企業級應用更加注重 vLLM 的大規模部署及其作為產品基礎形成對外提供服務的能力。然而,在規模化使用 vLLM 的過程中,企業面臨著一系列挑戰。
包括 DeepSeek 在內的 LLM 具備以下三大特點,各自帶來不同挑戰:
在構建和運營大規模顯卡集群以支持 vLLM 時除了需要解決上述的 LLM 推理的性能及穩定性以外,還要關注成本。其中的主要難點在于底層顯卡資源利用率的精確管控,資源使用的均衡性,以及顯卡本身的高昂費用:
“不可能三角”
總結上述的各項問題,都可以將其歸類為“不可能三角”:性能、成本與穩定性三者難以同時滿足。具體來說:
vLLM 集群的“不可能三角”關乎整個服務架構的穩固性,基礎不牢則地動山搖。一個完整的企業級產品不僅要求具備強大的資源基座,還需在此之上搭建日常的開發迭代、模型管理、推理過程指標可觀測性、運維等一系列瑣碎但不可或缺的功能。這些全部能力疊加在一起才能足夠支撐一個企業級產品。
DevOps
為了高效管理和優化 vLLM 服務,企業在日常開發與運維中需應對以下幾個關鍵領域:
面對這些挑戰,企業不僅需要強大的技術支持以實現 vLLM 的高效運作,還需制定合理的策略來平衡“不可能三角”之間的關系,確保規模化 vLLM 部署下的應用對外服務能力。
正所謂“打蛇打七寸”,針對 DeepSeek 以及眾多 LLM 的特性,函數計算 (FC) 提供了通用性的解決方案——GPU 預留實例閑置計費,精準解決了性能、成本與穩定性之間的平衡難題:
FC GPU 預留實例的閑置計費功能不僅提升了 LLM 服務的性能,降低了成本,還確保了系統的穩定性。這種綜合優勢使得企業在面對復雜的業務需求和技術挑戰時,能夠更加從容地提供高質量的服務。
FC 也天然支持高效的開發與運維能力,提供日常迭代、模型管理、多維度可觀測指標、儀表盤以及運維流程,確保企業級產品的完整性和可靠性。除此之外,在請求調用方面,FC 也提供多樣的請求導入機制:
這些特性使得企業可以專注于業務邏輯的創新,而不必擔心底層技術實現的復雜性。
FC 提供了一套簡便的 vLLM 服務框架與模型解耦的部署流程。由于 vLLM 自身支持 server 端口及路徑要求,因此可以直接接入 FC 使用 GPU 預留實例,開箱即用,無需特殊配置。以下是詳細的部署流程:
1. 上傳 vLLM 鏡像:使用官方提供的 vLLM Docker 鏡像,無需對鏡像進行任何修改,將該鏡像上傳至阿里云容器鏡像服務(ACR)。
2. 創建函數:登錄阿里云控制臺,進入函數計算 3.0 管理頁面,開始創建一個新的 GPU 函數,并選擇適合的運行環境和配置。
3. 配置啟動命令:(為了保證服務的穩定性,需添加 –enforce-eager 參數以關閉急切模式)。
python3 -m vllm.entrypoints.openai.api_server --enforce-eager --model ${NAS中的模型路徑} --trust-remote-code --served-model-name ${LLM模型} ...其他參數配置... --port ${函數暴露端口}
更多參數配置可參考 vLLM 官方文檔,根據具體需求調整配置。
python3 -m vllm.entrypoints.openai.api_server --model /prod/models --trust-remote-code --served-model-name Qwen/Qwen-14B-Chat --gpu-memory-utilization 0.9 --max-model-len 4096 --port 8080
4. 選擇顯卡:對于大語言模型,推薦使用 Ada 系列的 GPU — fc.gpu.ada.1 卡型,并使用整卡顯存以支撐大體積的 LLM 模型。
5. 完成函數創建:按照上述步驟完成所有配置后,點擊“創建”按鈕,等待系統完成初始化。
6. 指定模型掛載路徑:為了實現模型的集中管理和更新,我們強烈建議用戶將模型存儲在 NAS 中。NAS 可以自動掛載到 FC 函數的 vLLM 服務實例中,從而實現模型的無縫集成。
7. 配置預留實例并開啟閑置計費:創建所需數量的預留實例并按需配置定時預留。
8.(可選)綁定自定義域名:通過綁定自定義域名,實現直接通過該域名進行 HTTP 調用,對外提供推理服務。
直接對外提供服務
vLLM 函數配置完成后,可以直接對外暴露自定義域名提供服務。這種方式使得 vLLM 應用能夠立即上線,并為用戶提供便捷的訪問入口。
進一步包裝與集成
如果您希望進一步包裝 vLLM,可以將自定義域名輕松嵌入到上層服務中并封裝調用。企業無需關心底層 vLLM 實例的啟動、調度、負載均衡以及親和性等細節,FC 能夠確保服務的高效與穩定運行。
使用CAP簡化部署
對于不需要觀察 vLLM 實例的用戶,可以直接使用基于 FC 的模型應用平臺(CAP)進一步抽象部署過程,使您能夠快速、輕松地將vLLM應用部署上線,大大節省了時間和精力。
通過 FC GPU 預留實例的閑置計費功能,企業用戶能在充分利用 vLLM 的強大功能的同時找到成本、性能、穩定的最佳平衡點,并保持開發和運維的高效性。無論是將 FC vLLM 函數直接對外提供服務,還是深度集成到現有系統中,或是通過 CAP 還是魔搭來簡化部署,都能找到滿足您業務需求的最佳實踐。
文章轉載自:破解 vLLM + DeepSeek 規模化部署的“不可能三角”