
一文講透 AI Agent 與 AI Workflow 的區別和深度解析:從自動化到智能化的演進
基于主流的DiT和線性噪聲軌跡Flow Matching范式,萬相大模型通過一系列技術創新實現了生成能力的重大進步。包括自研高效的3D因果VAE、可擴展的預訓練策略、大規模數據鏈路構建以及自動化評估指標,這些創新共同提升了模型的最終性能表現。自研高效的3D因果VAEWan2.1基于3D因果VAE模塊,實現了256倍無損視頻隱空間壓縮。為高效支持任意長度視頻的編碼與解碼,我們在3D VAE的因果卷積模塊中引入了特征緩存機制。該機制通過分塊處理視頻并緩存每塊尾幀特征,避免了直接對長視頻進行端到端的編解碼,從而實現無限長1080P視頻的高效編解碼。此外,Wan2.1通過將空間降采樣壓縮提前,在不損失性能的情況下進一步減少了29%的推理時內存占用。
通義萬相大模型視頻VAE實驗結果表明,通義萬相的視頻VAE在視頻質量和處理效率上均表現出色。在相同硬件環境(單個A800 GPU)下,通義萬相視頻VAE重建速度比現有最先進方法快2.5倍,且在較小模型參數下實現業內領先的壓縮重構質量。得益于小尺寸設計和特征緩存機制,高分辨率下的性能優勢更為顯著。
Wan2.1基于主流的視頻DiT結構,通過Full Attention機制有效建模長時程時空依賴,生成時空一致的高質量視頻。在噪聲采樣策略上,采用Flow Matching方法,不僅確保模型快速收斂,還提升了訓練效率。模型首先利用多語言umT5編碼器對輸入文本進行語義編碼,并通過逐層交叉注意力層將文本特征注入每個Transformer Block,實現細粒度語義對齊。此外,通過共享參數的MLP模塊將時間步特征映射為可學習參數,顯著降低了計算量和參數規模。
在訓練策略上,我們采用6階段分步訓練法:從256P圖像數據的初始預訓練,到逐步引入低分辨率、高時長視頻數據,再到480P、720P的高分辨率數據訓練,最后通過Post-training階段使用高質量標注數據進行微調,進一步提升生成效果。這種漸進式訓練策略讓模型在不同分辨率和復雜場景下都能表現出色。數據處理Wan2.1 的訓練依賴于大規模、高質量的數據集,在預訓練階段,我們的目標是從龐大但嘈雜的初始數據集中選取高質量且多樣化的數據,以促進有效的訓練。如下圖所示,我們設計了一個四步數據清洗流程,重點關注基礎維度、視覺質量和運動質量。對應的整個預訓練過程也分為四個階段,每個階段逐漸增加分辨率和視頻時長,讓模型在一定算力限制下得到更充分的訓練。最終的SFT階段,我們進行了更嚴格的數據過濾,保障模型穩定收斂到高質量視頻輸出。
模型訓練和推理效率優化訓練階段,對于文本、視頻編碼模塊,我們使用DP和FSDP組合的分布式策略;DiT模塊,我們采用DP、FSDP、RingAttention、Ulysses混合的并行策略。基于萬相2.1模型參數量較小和長序列帶來的計算量較大的特征,結合集群計算性能和通信帶寬,我們采用FSDP切分模型,并在FSDP外嵌套DP提升多機拓展性,FSDP和DP的通信均能夠完全被計算掩蓋。為了切分長序列訓練下的activation,DiT部分使用了Context Parallelism(CP)對sequence維度進行切分,并使用外層RingAttention、內層Ulysses的2DCP的方案減少CP通信開銷。此外,為了提升端到端整體效率,我們在文本、視頻編碼和DiT模塊間進行高效策略切換,避免計算冗余。具體來說,文本、視頻編碼模塊每個device讀不同數據,在進入DiT之前,通過循環廣播不同device上的數據來保證CP組里的數據一樣。
顯存優化方面,我們采用分層的顯存優化策略,選擇一些層進行offload,其他層根據不同算子計算量和顯存占用的分析使用細粒度Gradient Checkpointing(GC)進一步優化activation顯存。最后我們也利用PyTorch顯存管理機制,解決顯存碎片問題。訓練穩定性方面借助于阿里云訓練集群的智能化調度、慢機檢測以及自愈能力,在訓練過程中自動識別故障節點并快速重啟任務,平均重啟時間為39秒,重啟成功率超過98.23%。推理階段,為了使用多卡減少生成單個視頻的延遲,我們需要選擇CP來進行分布式加速。此外,當模型較大時,還需要進行模型切分。模型切分策略:單卡顯存不足時必須考慮模型切分。鑒于序列長度通常較長,與張量并行(TP)相比,FSDP的通信開銷更小,并且可以被計算掩蓋。因此,我們選擇FSDP方法進行模型切分(注意:這里僅做切分權重,而不做數據并行)。序列并行策略:采用與訓練階段相同的2D CP方法,外層(跨機器) 使用RingAttention,內層(機器內)使用Ulysses。在萬相2.1 140億參數模型上,使用FSDP和2D CP的組合方法,在多卡上具有如下圖所示的近線性加速。
為了減少DiT實際計算量,我們使用了效果無損的step間cache和CFG cache的方法,僅對若干關鍵去噪步驟進行實際計算并緩存結果,其他步驟則復用這些緩存,最終性能提升約61%。在推理過程中,我們也使用了量化方法,我們在部分層(qkvo projection和FFN)使用fp8gemm,同時實現了FlashAttention3 INT8和FP8混合算子進行attention部分的8bit 量化,在保證效果無損的情況下,端到端性能提升30%以上。
通義萬相(Wan2.1)已經在GitHub、Hugging Face、魔搭社區等平臺開源,支持多種主流框架。無論是開發者還是研究者,都可以通過Gradio快速體驗,或利用 xDiT 并行加速推理提升效率。同時,我們正在加速接入Diffusers和ComfyUI ,進一步簡化一鍵推理與部署流程。不僅大幅降低了開發門檻,還為大家提供了靈活的選擇——無論是快速原型開發,還是高效生產部署,都能輕松實現。
原文轉載自:https://mp.weixin.qq.com/s/B0iiqSWr2MoSYbB0vgjRzQ