圖1 說明與之前的解決方案相比,擴散模型如何在經典的代理-環境-緩沖區循環中發揮不同的作用。(1) 當用作規劃器時,擴散模型在每個去噪步驟中優化整個軌跡,而自回歸模型僅根據先前規劃的部分子序列生成下一步輸出。(2)當用作策略時,擴散模型可以對任意動作分布進行建模,而高斯策略只能將可能多樣化的數據集分布與單峰分布進行擬合。(3) 當用作數據合成器時,擴散模型使用從學習的數據集分布中采樣的生成數據來增強數據集,而隨機擾動的增強可能會生成偏離數據樣本的樣本。

圖2 擴散模型在RL中的不同作用。(a)擴散模型作為規劃器。采樣目標是軌跡的一部分,其成分可能因特定任務而異。(b)擴散模型作為策略。采樣目標是在狀態條件下采取的行動,通常由Q函數通過策略梯度式指導或直接從訓練目標中減去。(c)擴散模型作為數據合成器。采樣目標也是軌跡,真實數據和合成數據都用于下游策略改進。為了更好的可視化,我們省略了(c)中N去噪迭代的箭頭,只顯示了隨機采樣的噪聲生成的合成數據。

4.1 規劃器

強化學習的規劃是在想象環境中做出決策,以最大化累積獎勵信號。規劃通常應用于多智能體強化學習框架,但自回歸生成的決策序列可能導致復合誤差。擴散模型可以解決此問題,因為它們可以同時生成整個序列。

4.2 策略

與傳統強化學習分類法相比,擴散模型作為規劃器與MBRL類似,作為策略則遵循無模型強化學習框架。離線政策學習框架的主要缺點是過于保守和對多樣化數據集的能力較差,而擴散模型由于其出色的多模態分布表達能力,被用于解決這些問題。

4.3 數據合成器

擴散模型在計算機視覺和強化學習(RL)中廣泛用于生成更多訓練樣本。在RL中,擴散模型作為數據合成器,可生成與環境動態一致的多樣化數據,提高策略性能和樣本效率。Lu等人的研究表明,擴散模型生成的數據質量高于顯式數據增強生成的數據。此外,He等人[2023a]使用擴散模型增強多任務離線數據集,實現了更好的性能。

4.4 其他

Hegde等人采用超網絡思想,為質量多樣性強化學習生成策略參數,訓練后的擴散模型將策略參數壓縮到潛在空間中。Mazoure等人結合學習獎勵估計器,使用擴散模型估計價值函數,并根據定義直接計算價值函數。Venkatraman等人遵循潛在擴散模型,將高級軌跡編碼為語義豐富的表示,然后對其應用擴散模型,實現更高的能力。

5 擴散模型在RL的應用

擴散模型在強化學習中相關應用可分為四類:離線強化學習、模仿學習、軌跡生成和數據增強。

5.1 離線強化學習

離線 RL 旨在從靜態數據集 D 中學習策略,而無需在線交互。離線 RL 的基本挑戰是分布轉變,即函數近似器(例如策略、價值函數)在一個分布下訓練,但在不同的分布上進行評估,導致學習策略的性能不佳。高維和表達性的函數近似通常會加劇這個問題。

擴散模型被用于解決或避免RL中的挑戰,如克隆行為策略與真實行為策略之間的近似誤差。方法包括使用分類器引導采樣的迭代去噪過程、將策略表示為擴散模型以捕獲多模態分布、使用無分類器指導的低溫度采樣來消除分布偏移的風險、提高擴散模型對RL的生成能力、保證規劃軌跡的安全生成、解決長期決策問題、計劃準確地匹配期望的軌跡、利用一致性模型進行快速訓練和采樣、通過使用單步模型預測作為動作近似來獲得加速,以及用于提取獎勵函數或價值函數。盡管取得了進展,但使RL代理泛化到多任務和多代理場景仍然是一個挑戰。

多任務離線RL。擴散模型具有解決多任務強化學習挑戰的潛力,He等人擴展了條件擴散模型,LCD利用層次結構實現長期多任務控制,Ni等人和Liang等人將擴散器擴展到更具體的情境中。MetaDiffuser和AdaptDiffuser分別將條件擴散模型整合到任務推理和適應未見過的任務中,優于之前的元強化學習方法。

多智能體離線RL。擴散模型在多智能體RL中用于建模智能體差異行為,減少近似誤差。MADiff和DOM2分別使用注意力擴散模型和整合到策略類中的擴散模型來學習復雜的多智能體交互和推廣到變化環境。

5.2 模仿學習

模仿學習通過提取專家演示中的知識,在環境中再現專家行為。擴散模型已被證明能有效表示策略,提高采樣行為質量。Pearce等人將其應用于順序環境,Chi等人則應用于機器人動作空間。擴散模型擅長預測閉環動作序列,保證時間一致性。受益于其強大的生成能力,擴散模型有望獲取處理多個操縱任務的多樣化技能。擴散模型已應用于目標條件RL,解決目標導向導航和目標無關探索問題。

5.3 軌跡生成

軌跡生成是根據一組約束條件推導動態可行路徑的過程,特別是關于人類姿勢和機器人交互的決策場景。許多研究顯示,條件擴散模型在運動生成方面比使用GAN或Transformer的方法更有效。該框架利用去噪擴散和條件上下文實現多樣化和精細的運動生成。近期研究使用擴散模型合成未來幀并提取控制動作,使得僅基于RGB視頻訓練策略并應用至多種機器人任務成為可能。UniSim利用擴散模型整合多種數據集,構建通用模擬器來訓練高級視覺語言規劃器和低級RL策略,展示強大的仿真能力。

5.4 數據增強

擴散模型已被用于強化學習數據增強,可精確模擬原始數據分布,生成不同數據點擴展原始分布,保持動態準確性。近期研究使用文本引導的擴散模型增強機器人控制觀察,保持相同動作。SynthER和MTDiff-s通過擴散模型生成訓練任務完整轉換,為在線和離線強化學習帶來顯著政策改進。

6 RL中擴散模型的挑戰

本節討論了強化學習中擴散模型的三個限制,以及與基于Transformer的自回歸方法的比較。

在線強化學習中的應用。擴散模型在線強化學習面臨挑戰,因為數據分布隨時間變化。當前策略采樣的數據分布可能會隨著時間變化,需要大量新數據來適應。在線強化學習需要平衡適應性需求和大量數據需求。通過更輕量級的擴散模型有望解決這一困境,該模型可以在數據分布發生變化時保持一致性。

迭代采樣成本。擴散模型采樣成本高,盡管有DDIM和DPM-Solver等加速技術,但在在線交互中仍受限。陳等人提出的一致性模型,通過一兩個擴散步驟即可實現與50個步驟的DDPM或DDIM相當的性能。

隨機抽樣的方差。傳統的強化學習算法使用高斯表示的連續控制策略,但當使用擴散模型作為策略類時,確定性策略是不可能的。擴散采樣的隨機性來自初始噪聲和每步隨機去噪,高方差策略可能對精度或安全要求較高的環境產生負面影響。現有的工作很少討論這一限制,并期望減少方差的采樣方法。

與基于Transformer的方法的比較。擴散模型和Transformer是兩種不同的強化學習方法。擴散模型利用分布擬合能力,擅長多模態、多樣化和準確的輸出,而Transformer擅長長時域序列建模和時間相關性理解。擴散模型更適合學習復雜的多模態任務,而Transformer更傾向于時間或代理維度的相關序列建模。

7 展望

這綜述概述了擴散模型在RL領域的應用,將其分為規劃器、政策、數據合成器等角色。與傳統方法相比,擴散模型解決了RL中的表現力、數據稀缺、復合誤差和多任務泛化問題。盡管有局限性,但擴散模型在RL中仍有許多值得探索的研究方向,如結合變換器、檢索增強生成、整合安全約束和組合不同技能。

組合變換器。現有工作使用UNet進行軌跡建模,但UNet不適合軌跡建模。考慮軌跡生成和預測的最新進展,用變換器代替UNet可能更有效地學習軌跡中的順序關系,輸出更一致的結果,有助于具有強時間相關性的任務的長期規劃和執行。

檢索增強生成。檢索技術在推薦系統和大型語言模型等領域廣泛應用,以提高模型處理長尾分布式數據集的能力。一些研究利用檢索數據促進文本到圖像和文本到動作擴散生成,以更好地覆蓋罕見條件信號。在在線交互過程中,通過檢索相關狀態作為模型輸入,擴散決策模型的性能可以得到改善。此外,如果檢索數據集不斷更新,擴散模型有可能在不進行重新訓練的情況下生成新行為。

整合安全約束。將RL模型用于實際應用需要遵守安全約束,幾種安全的RL方法將受約束的RL問題轉化為無約束的等價問題,然后由通用的RL算法求解。最近的研究將決策轉換器的適用性擴展到安全約束設置的環境中,從而使單個模型能夠通過調整輸入成本來適應不同的閾值。擴散模型在安全RL領域具有巨大的部署潛力,基于擴散的規劃器可以結合不同的移動技能來產生新的行為,分類器引導的采樣可以為生成的樣本添加新的條件。

組合不同的技能。擴散模型在原始狀態和動作空間上部署生成能力,基于技能的強化學習將其分解為更小、更易于管理的子技能。擴散模型擅長對多模態分布進行建模,適合處理子技能。結合分類器指導或無分類器指導,擴散模型可以生成適當技能完成任務。離線RL實驗表明,擴散模型可以在技能之間共享知識,并將其組合起來,具有通過組合不同技能進行零樣本適應或連續RL的潛力。

參考資料:

《 Diffusion Models for Reinforcement Learning: A Survey》

文章轉自微信公眾號@算法進階

上一篇:

10大機器學習聚類算法實現(Python)

下一篇:

深度學習時間序列的綜述
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數據驅動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費