在谷歌最新的論文中,研究人員提出了“非政策強(qiáng)化學(xué)習(xí)”算法OPC,它是強(qiáng)化學(xué)習(xí)的一種變體,它能夠評(píng)估哪種機(jī)器學(xué)習(xí)模型將產(chǎn)生最好的結(jié)果。數(shù)據(jù)顯示,OPC比基線機(jī)器學(xué)習(xí)算法有著顯著的提高,更加穩(wěn)健可靠。
在谷歌AI研究團(tuán)隊(duì)一篇新發(fā)表的論文《通過非政策分類進(jìn)行非政策評(píng)估》(Off-PolicyEvaluation via Off-Policy Classification)和博客文章中,他們提出了所稱的“非政策分類”,即OPC(off-policy classification)。它能夠評(píng)估AI的表現(xiàn),通過將評(píng)估視為一個(gè)分類問題來驅(qū)動(dòng)代理性能。
研究人員認(rèn)為他們的方法是強(qiáng)化學(xué)習(xí)的一種變體,它利用獎(jiǎng)勵(lì)來推動(dòng)軟件政策實(shí)現(xiàn)與圖像輸入?yún)f(xié)同工作這個(gè)目標(biāo),并擴(kuò)展到包括基于視覺的機(jī)器人抓取在內(nèi)的任務(wù)。
“完全脫離政策強(qiáng)化學(xué)習(xí)是一種變體。代理完全從舊數(shù)據(jù)中學(xué)習(xí),對(duì)于工程師來說這是很有吸引力的,因?yàn)樗梢栽诓恍枰锢頇C(jī)器人的情況下進(jìn)行模型迭代。”
Robotics at Google(專注機(jī)器學(xué)的的谷歌新團(tuán)隊(duì))的軟件工程師Alexa Irpan寫道,“完全脫離政策的RL,可以在先前代理收集的同一固定數(shù)據(jù)集上訓(xùn)練多個(gè)模型,然后選擇出最佳的那個(gè)模型。”
但是OPC并不像聽起來那么容易,正如Irpan在論文中所描述的,非政策性強(qiáng)化學(xué)習(xí)可以通過機(jī)器人進(jìn)行人工智能模型培訓(xùn),但不能進(jìn)行評(píng)估。并且在需要評(píng)估大量模型的方法中,地面實(shí)況評(píng)估通常效率太低。
OPC在假設(shè)任務(wù)狀態(tài)變化方面幾乎沒有隨機(jī)性,同時(shí)假設(shè)代理在實(shí)驗(yàn)結(jié)束時(shí)用“成功或失敗”來解決這個(gè)問題。兩個(gè)假設(shè)中第二個(gè)假設(shè)的二元性質(zhì),允許為每個(gè)操作分配兩個(gè)分類標(biāo)簽(“有效”表示成功或“災(zāi)難性”表示失敗)。
另外,OPC還依賴Q函數(shù)(通過Q學(xué)習(xí)算法學(xué)習(xí))來估計(jì)行為的未來總回報(bào)。代理商選擇具有最大預(yù)期回報(bào)的行動(dòng),其績效通過所選行動(dòng)的有效頻率來衡量(這取決于Q函數(shù)如何正確地將行動(dòng)分類為有效與災(zāi)難性),并以分類準(zhǔn)確性作為非政策評(píng)估分?jǐn)?shù)。
(左圖為基線,右圖為建議的方法之一,SoftOpC)
谷歌AI團(tuán)隊(duì)使用完全非策略強(qiáng)化學(xué)習(xí)對(duì)機(jī)器學(xué)習(xí)策略進(jìn)行了模擬培訓(xùn),然后使用從以前的實(shí)際數(shù)據(jù)中列出的非策略分?jǐn)?shù)對(duì)其進(jìn)行評(píng)估。
在機(jī)器人抓取任務(wù)時(shí),他們報(bào)告OPC的一種變體SoftOPC在預(yù)測(cè)最終成功率方面表現(xiàn)最佳。假設(shè)有15種模型(其中7種純粹在模擬中訓(xùn)練)具有不同的穩(wěn)健性,SoftOPC產(chǎn)生的分?jǐn)?shù)與與真正的抓取成功密切相關(guān),并且相比于基線方法更加穩(wěn)定可靠。
在未來的研究中,研究人員打算用“噪聲”(noisier)和非二進(jìn)制動(dòng)力學(xué)來探索機(jī)器學(xué)習(xí)任務(wù)。“我們認(rèn)為這個(gè)結(jié)果有希望應(yīng)用于許多現(xiàn)實(shí)世界的RL問題,”Irpan在論文結(jié)尾寫道。
-
谷歌
+關(guān)注
關(guān)注
27文章
6169瀏覽量
105439 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8420瀏覽量
132685
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
比亞迪與華工科技開啟戰(zhàn)略合作新篇章
魏德米勒開啟產(chǎn)業(yè)數(shù)智轉(zhuǎn)型新篇章
IOT物聯(lián)網(wǎng)中臺(tái):開啟智慧生活新篇章 物聯(lián)網(wǎng)平臺(tái)系統(tǒng)
揚(yáng)帆出海!穩(wěn)石氫能AEM電解槽出貨智利,開啟全球商業(yè)化新篇章!
![揚(yáng)帆出海!穩(wěn)石氫能AEM電解槽出貨智利,開啟全球商業(yè)化<b class='flag-5'>新篇章</b>!](https://file1.elecfans.com/web1/M00/F4/19/wKgZoWckPR6AFo2nAArFd_CXcQM904.png)
重慶市第五人民醫(yī)院引領(lǐng)醫(yī)療電能質(zhì)量革命,點(diǎn)亮“健康”新篇章
![重慶市第五人民醫(yī)院引領(lǐng)醫(yī)療電能質(zhì)量革命,點(diǎn)亮“健康”<b class='flag-5'>新篇章</b>](https://file1.elecfans.com/web2/M00/09/6D/wKgZomcMyFmAKbwHAAFWKzAiNno845.png)
摩爾線程與中國移動(dòng)攜手,共筑生態(tài)與應(yīng)用開創(chuàng)數(shù)智新篇章
復(fù)合機(jī)器人:開啟智能倉儲(chǔ)新篇章
![復(fù)合<b class='flag-5'>機(jī)器</b>人:開啟智能倉儲(chǔ)<b class='flag-5'>新篇章</b>](https://file1.elecfans.com/web2/M00/0A/47/wKgaomcKOe6ADX_5AAqnxW7gjwg436.png)
探索未來智能制造新篇章——富唯智能復(fù)合機(jī)器人
![探索未來智能制造<b class='flag-5'>新篇章</b>——富唯智能復(fù)合<b class='flag-5'>機(jī)器</b>人](https://file1.elecfans.com/web2/M00/F0/FB/wKgZomZz96eAZLusAAqNxUZCGbs726.png)
深開鴻與哈工大重慶研究院合作共同開啟智能機(jī)器人與協(xié)同技術(shù)的新篇章
![深開鴻與哈工大重慶研究院合作共同開啟智能<b class='flag-5'>機(jī)器</b>人與協(xié)同技術(shù)的<b class='flag-5'>新篇章</b>](https://file1.elecfans.com/web2/M00/E5/CF/wKgaomZBcHiAJ0cfAABrYLVLqBw225.png)
深開鴻與哈工大重慶研究院攜手打造智能機(jī)器人與協(xié)同技術(shù)新篇章
![深開鴻與哈工大重慶研究院攜手打造智能<b class='flag-5'>機(jī)器</b>人與協(xié)同技術(shù)<b class='flag-5'>新篇章</b>](https://file.elecfans.com/web2/M00/35/6C/poYBAGIq5qqAQJzlAAA5OpNWiJA439.png)
華盛昌與易達(dá)云成功簽署戰(zhàn)略協(xié)議,共同開啟合作新篇章
![華盛昌與易達(dá)云成功簽署戰(zhàn)略協(xié)議,共同開啟合作<b class='flag-5'>新篇章</b>](https://file1.elecfans.com/web2/M00/E4/53/wKgZomY_PjiASh_MAAAZFexJ-TI343.jpg)
評(píng)論