好看的小说完本推荐,我欲封天,天下高月小说

擴散模型（diffusion model）在 CV 領域甚至 NLP 領域都已經有了令人印象深刻的表現。最近的一些工作開始將 diffusion model 用于強化學習（RL）中來解決序列決策問題，它們主要利用 diffusion model 來建模分布復雜的軌跡或提高策略的表達性。

但是，這些工作仍然局限于單一任務單一數據集，無法得到能同時解決多種任務的通用智能體。那么，diffusion model 能否解決多任務強化學習問題呢？我們最近提出的一篇新工作——“Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning”，旨在解決這個問題并希望啟發后續通用決策智能的研究：

論文題目：Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning

論文鏈接：

https://arxiv.org/abs/2305.18459

背景

數據驅動的大模型在 CV 和 NLP 領域已經獲得巨大成功，我們認為這背后源于模型的強表達性和數據集的多樣性和廣泛性?；诖耍覀儗⒆罱鋈Φ纳墒綌U散模型（diffusion model）擴展到多任務強化學習領域（multi-task reinforcement learning），利用 large-scale 的離線多任務數據集訓練得到通用智能體。目前解決多任務強化學習的工作大多基于 Transformer 架構，它們通常對模型的規模，數據集的質量都有很高的要求，這對于實際訓練來說是代價高昂的?；?TD-learning 的強化學習方法則常常面臨 distribution-shift 的挑戰，在多任務數據集下這個問題尤甚，而我們將序列決策過程建模成條件式生成問題（conditional generative process），通過最大化 likelihood 來學習，有效避免了 distribution shift 的問題。

方法

具體來說，我們發現 diffusion model 不僅能很好地輸出 action 進行實時決策，同樣能夠建模完整的（s,a,r,s'）的 transition 來生成數據進行數據增強提升強化學習策略的性能，具體框架如圖所示：

對于決策規劃任務，我們將模型稱為；對于數據生成（增強）任務，我們將模型稱為。我們的擴散模型基于 DDPM 的訓練方式，利用損失訓練，它能夠預測逆向過程每一步的噪聲。對于，它的損失函數可以表示為：

其中

是軌跡的標準化累積回報，是 Demonstration Prompt，可以表示為：

*表示專家軌跡，即是從每個任務下的一條或幾條專家軌跡采樣得到的時間步長的一段包含狀態和動作的軌跡。對做 classifi-free guidance，并在測試推理過程中生成未來步長的動作序列，在實驗中我們選取第一個動作與環境交互。對于，它的損失函數可以表示為：

其中

值得注意的是這里我們需要擴散模型建模整個（s,a,r）的完整軌跡，并且由于目標是完成數據生成任務，需要盡可能多樣化的數據，不需要模型 condition 在上，自然也不需要 classifier-free guidance。

模型結構

為了更好地建模多任務數據，并且統一多樣化的輸入數據，我們用 transformer 架構替換了傳統的 U-Net 網絡，網絡結構圖如下：

▲ 關于模型結構和更多細節，還請參考我們的論文

實驗

我們首先在 Meta-World MT50 上開展實驗并與 baselines 進行比較，我們在兩種數據集上進行實驗，分別是包含大量專家數據，從 SAC-single-agent 中的 replay buffer 中收集到的 Near-optimal data（100M）；以及從 Near-optimal data 中降采樣得到基本不包含專家數據的 Sub-optimal data（50M）。實驗結果如下：

可以看到我們的方法在同樣大小的數據上不僅超越了大多數離線強化學習方法，并且也超過了兩種多任務在線強化學習方法，其中 PaCo 是目前的 SOTA 方法。我們的方法通過 classifier-free guidance 得到最優行為，對數據集質量的依賴性不強，在 Sub-optimal data 上的表現相比其他 sequence modeling 的方法有很大提升。在我們的實驗中也觀察到 Behavior Cloning（BC）在 Near-optimal data 上和我們的方法相比具有 competitive performance，但 BC 嚴重依賴數據集質量，在 Sub-optimal data 上性能急劇下降。在數據增強方面，我們的方法也同樣有效，明顯提升了數據集的質量以增強策略性能，實驗結果如下：

我們選取 45 個任務的 Near-optimal data 訓練，從表中我們可以觀察到在見過的任務上，我們的方法均取得了最好的性能。甚至給定一段 demonstration prompt，能泛化到沒見過的任務上并取得較好的表現。我們選取四個任務對原數據和生成的數據做 T-SNE 可視化分析，發現我們生成的數據的分布基本匹配原數據分布，并且在不偏離的基礎上擴展了分布，使數據覆蓋更加全面。

同樣也具有泛化性，更多實驗分析可以參見論文。

總結

我們提出了一種基于擴散模型（diffusion model）的一種新的、通用性強的多任務強化學習解決方案，它不僅可以通過單個模型高效完成多任務決策，而且可以對原數據集進行增強，從而提升各種離線算法的性能。我們未來將把遷移到更加多樣、更加通用的場景，旨在深入挖掘其出色的生成能力和數據建模能力，解決更加困難的任務。同時，我們會將遷移到真實控制場景，并嘗試優化其推理速度以適應某些需要高頻控制的任務。

原文標題：NeurIPS 2023 | 擴散模型解決多任務強化學習問題

文章出處：【微信公眾號：智能感知與物聯網技術研究所】歡迎添加關注！文章轉載請注明出處。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴