在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

淺談Q-Learning在Agent的應用

深度學習自然語言處理 ? 來源:青稞AI ? 2023-12-02 16:53 ? 次閱讀

作者:周舒暢,AI 工程師

OpenAI 宮斗告一段落,現在到處都在猜 Q* 是什么。本文沒有 Q* 的新料,但是會探討一下 Q-Learning 在 Agent 方面的可能應用。

有趣的分享!LLMs時代下,幻覺、對話、對齊、CoT、Agent和事實性評估等領域的前沿研究

實現 tool 自動選擇和參數配置

75b5f30c-90ef-11ee-939d-92fbcf53809c.jpg

經典文字模型

經典的文字模型我們已經很熟悉了:訓練時,模型不停的預測下一個 token 并與真實語料比較,直到模型的輸出分布非常接近于真實分布。

75c923fa-90ef-11ee-939d-92fbcf53809c.jpg

因為語言模型的局限性(比如搞不定大數計算),所以多家大模型公司走上了語言模型 + 工具的道路。比如 GPT4-turbo 就可以靈活調用網絡搜索、Analysis(某種 Python) 這些 tools,來生成 tool response(即網絡搜索結果、Python 執行結果),來幫助回答文字問題。

這就引入了一個決策問題,對于一個用戶表達(utterance),到底要不要做網絡搜索或者調用 Python 來幫助回答呢?如果決策錯誤,則結果不最優:

?工具的響應結果(tool response)可能無濟于事甚至產生誤導。比如有一些網絡上的玩梗會影響模型對一些基本概念的知識。?工具的調用引入了額外的時間消耗。

因此,好好搞一些標注,訓一個“動作決策”模型,能拿到第一波好處。這是有監督學習的思路。這里動作決策模型的輸出,是具體的含參數的動作,比如調用網絡搜索時,需要給出“是否搜索”和“搜索關鍵字”兩部分信息。因此動作決策模型最好也是個大模型。這么搞的問題,是上限不高,受制于“動作決策模型”的標注質量,并且并沒有直接優化“模型輸出”,需要人絞盡腦汁來針對模型調整“動作決策模型”的標注來達到最優。比如對于網絡搜索,當搜索引擎不同時,需要為“動作決策模型”使用不同的搜索關鍵字作為標注。

但從另一個角度,虛線框內的部分,仍然是一個文字進文字出的"模型",所以理論上可以用降低輸出結果的困惑度的方法,按強化學習(RL)去訓練這個復合了工具的“語言模型”。這里因為“動作的決策”不可微,所以來自“模型輸出”的梯度只能用 RL 往回傳。使用 RL 的具體步驟為:

?利用標注訓練“動作決策模型”,使得整體有一定效果,即完成行為克隆(behavior cloning)這一啟動步。?用強化學習繼續訓練整體,即復合了工具的“語言模型”。

Reward 由幾項組成:

?利用<用戶輸入、模型輸出>這樣的成對數據(格式上接近 SFT 數據),計算困惑度?如果有用戶偏好數據,也可以仿照 DPO 構造不同動作間的對比數據項。?把調用工具的時間和成本代價,折算進 Reward

實際,以上相當于使用了 Q-learning 的一個簡單變體 DDPG,即假設存在函數映射μ使得μ(當前狀態) = 最優工具調用動作與參數 如果不做這個假設,還是使用 Q(s, a) 的形式,則更接近 Reward Model 的搞法。

這里一個附送的好處,是可以做層級強化學習(hierarchical RL),就是說可以在工具調用中嵌套工具調用,比如一個網絡搜索中嵌套網絡搜索。因為上面在 Reward 里計入了“調用工具的時間和成本代價”,所以優化后的模型不太會出現盲目使用工具的情況。同時 RL 天然能處理多步決策,所以不特別需要研究“多輪交互時的動作決策模型標注“。

引入動態拆分任務

以上的 tool 調用,特別是網絡搜索和 Python 執行,主要是為模型輸出產生一些參考,因此本質上沒有互斥性,就是說各個動作間沒有強依賴。我們下面考慮一個動作間有強烈互相影響的場景:“任務拆分”。

當用戶輸入復雜到一定程度,我們需要引入拆分。靜態拆分不需要特殊處理,但是如果希望子任務是跟據動態執行時獲得的信息動態調整的,則要引入一個任務棧來進行管理。之前 AutoGPT 即引入了動態拆分子任務,基于語言模型實現了一定的 Agent 能力。但是一直以來 AutoGPT 并沒有通過“訓練”來加強能力的方法。下面,我們先把 AutoGPT 搬到 RL 里,一個搞法是借助 MCTS(蒙特卡洛搜索樹)。

75d92ee4-90ef-11ee-939d-92fbcf53809c.jpg

根結點是當前任務。各個葉子結點有 expandable 和 terminal 兩個屬性,其中 expandable 結點可以進一步被展開成子任務。注意

?MCTS 里 sibling 結點之間是或關系,選一即可。?MCTS 的 Policy Network 對應上文中的“動作決策”模型。?MCTS 里的 Value Network 可以用一大模型實現,描述當前結點的價值。比如發現當前子任務是死胡同時(如發現模型在用窮舉法證明“偶數加偶數還是偶數”時)可以喊停。?上文的工具調用“模型”可以自然地嵌入到這里使用

子任務拆分沒什么可用的數據,可以先靠語言模型天賦能力開始。訓練數據可以選有明確答案的題,以答對為 Reward。MCTS 的形式特別適用需要回溯的任務(把某種任務分解推倒重來),比如數學計算。

(到這,我們得到了一個用 Q-learning 整體驅動的,自動學習如何拆任務調工具的框架,似乎和 Q* 公開的一些線索對上了一些。)

審核編輯:黃飛

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • Agent
    +關注

    關注

    0

    文章

    123

    瀏覽量

    27387
  • Q-Learning
    +關注

    關注

    0

    文章

    5

    瀏覽量

    8199
  • python
    +關注

    關注

    56

    文章

    4822

    瀏覽量

    85855

原文標題:Q-Learning 在 Agent 的應用

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    《AI Agent應用與項目實戰》閱讀體驗--跟著迪哥學Agent

    、Muti-Agent的形態與組織方式,并對Agent各行各業中的應用進行了精到的列舉。 從第二章開始就進入到了實操章節,迪哥帶著我們認識了Coze,語聚AI。在此之前,我只會在AI對話框中跟AI
    發表于 03-02 12:28

    【「零基礎開發AI Agent」閱讀體驗】+初品Agent

    一本從知識到實踐的具有較高應用價值的書。 封面圖 那這本書都向讀者介紹哪些內容呢? 入門篇,其涉及的內容有: Agent的概念、發展、Agent與Prompt及copilot的區別、Age
    發表于 04-22 11:51

    Q-Learning算法(2)#人工智能

    人工智能
    jf_49750429
    發布于 :2022年11月29日 00:19:24

    基于Q-Learning的認知無線電系統感知管理算法

    認知無線電系統不僅是一個自適應系統,更應該是一個智能系統。該文將智能控制中的Q-Learning 思想引入到認知無線電系統中,用于解決感知任務認知用戶之間的分配問題,給出了
    發表于 03-06 10:46 ?9次下載

    基于LCS多機器人的算法介紹

    各種增強式學習中,Q-learning 或改進的Q-learning 應用的最多。JonathanH.Connell 和Sridhar Mahadevan Robot
    發表于 10-17 17:43 ?15次下載
    基于LCS多機器人的算法介紹

    基于Q-learning的碼率控制算法

    近年來,各界對多媒體內容傳輸特別是視頻流服務越來越重視。盡力交付的互聯網上支持可靠視頻流傳輸,基于HTTP的自適應流(HAS,HTTP adaptive streaming)已經成為視頻業務技術
    發表于 01-10 10:29 ?0次下載
    基于<b class='flag-5'>Q-learning</b>的碼率控制算法

    強化學習究竟是什么?它與機器學習技術有什么聯系?

    Q-learning和SARSA是兩種最常見的不理解環境強化學習算法,這兩者的探索原理不同,但是開發原理是相似的。Q-learning是一種離線學習算法,智能體需要從另一項方案中學習到行為a*的價值
    的頭像 發表于 04-15 10:32 ?1.4w次閱讀

    Q Learning算法學習

    Q Learning算法是由Watkins于1989年在其博士論文中提出,是強化學習發展的里程碑,也是目前應用最為廣泛的強化學習算法。
    發表于 07-05 14:10 ?3821次閱讀

    淺談Q-Learning和SARSA時序差分算法

    Q-Learning這一篇對應Sutton書的第六章部分和UCL強化學習課程的第五講部分。 1. Q-Learning算法的引入 Q-Learning算法是一種使用時序差分求解強化學習控制問題的方法
    的頭像 發表于 11-04 14:05 ?3018次閱讀

    基于雙估計器的Speedy Q-learning算法

    Q-learning算法是一種經典的強化學習算法,更新策略由于保守和過估計的原因,存在收斂速度慢的問題。 SpeedyQ-learning算法和 Double Q-learning算法
    發表于 05-18 15:51 ?2次下載

    《自動化學報》—多Agent深度強化學習綜述

    Agent 深度強化學習綜述 來源:《自動化學報》,作者梁星星等 摘 要?近年來,深度強化學習(Deep reinforcement learning,DRL) 諸多復雜序貫決策問題中取得巨大
    發表于 01-18 10:08 ?1817次閱讀
    《自動化學報》—多<b class='flag-5'>Agent</b>深度強化學習綜述

    怎樣使用Bevy和dfdx解決經典的Cart Pole問題呢

    解決經典的 Cart Pole 問題有很多種, 作者這里借用 dfdx 這個深度學習的庫, 使用 Deep Q-Learning 的方法來解決。
    的頭像 發表于 10-26 09:39 ?785次閱讀

    7個流行的強化學習算法及代碼實現

    已被用于游戲、機器人和決策制定等各種應用中,并且這些流行的算法還在不斷發展和改進,本文我們將對其做一個簡單的介紹。 1、Q-learning Q-learningQ-learning
    的頭像 發表于 02-03 20:15 ?1331次閱讀

    7個流行的強化學習算法及代碼實現

    作者:SiddharthaPramanik來源:DeepHubIMBA目前流行的強化學習算法包括Q-learning、SARSA、DDPG、A2C、PPO、DQN和TRPO。這些算法已被用于游戲
    的頭像 發表于 02-06 15:06 ?1873次閱讀
    7個流行的強化學習算法及代碼實現

    淺談AI Agent的發展階段

    2025年伊始,有關AI變革潛力的討論熱度正不斷攀升。人們對AI的關注焦點正從AI工具轉向創建及部署AI Agent今年最新發布的文章中,美國數據分析與AI戰略顧問、《信息經濟學》作者道格拉斯·B·萊尼將AI Agent的發
    的頭像 發表于 02-19 09:50 ?509次閱讀
    主站蜘蛛池模板: 久久精品午夜视频 | 岛国毛片在线观看 | 一级做a爱片在线播放 | 中文字幕亚洲天堂 | 精品在线一区二区 | 666精品国产精品亚洲 | 99色视频在线观看 | 亚洲综合色dddd26 | 国产ar高清视频+视频 | 亚洲国产成人精品女人久久久 | 性夜黄a爽爽免费视频国产 羞羞答答xxdd影院欧美 | 一级女人毛片人一女人 | 性夜影院爽黄a爽免费看网站 | 免费人成网站线观看合集 | 亚洲一区 在线播放 | 欧美黄免在线播放 | 美女视频黄a视频免费全过程 | 亚洲欧美一区二区三区四区 | 2020国产v亚洲v天堂高清 | 久久久久久久国产视频 | 免费一级在线 | 一区二区三区视频在线观看 | 美女被啪到哭网站在线观看 | 奇米影视一区二区三区 | 天天干天天做天天操 | 一色屋精品免费视频 视频 一色屋免费视频 | 男操女免费视频 | 91大神精品全国在线观看 | videosxxoo18在线| 欧美18videosex性欧美69 | 亚洲人在线 | 国产精品自线在线播放 | 午夜影院18 | 亚洲天堂ww| 99久久免费精品视频 | 国产又黄又免费aaaa视频 | 国产精品高清免费网站 | 久久精品成人免费网站 | 免费看很黄很色裸乳视频 | 五月亭亭激情五月 | 在线观看黄日本高清视频 |