許多文章解釋了強(qiáng)化學(xué)習(xí)(RL)的概念,但鮮有文章解釋如何切實(shí)地設(shè)計(jì)實(shí)現(xiàn)現(xiàn)實(shí)世界中的強(qiáng)化學(xué)習(xí)。
小芯這次想分享人工智能范式轉(zhuǎn)變課程,討論設(shè)計(jì)權(quán)衡問題,并深入研究技術(shù)細(xì)節(jié)。
那么,我們開始吧!
首先,喝酒?
想象一下你身處聚會(huì),有點(diǎn)微醺或酩酊大醉,自愿參加一個(gè)飲酒游戲,想要打動(dòng)一個(gè)(或多個(gè))頗具魅力的泛泛之交。
有人蒙住你的眼睛,給你一杯或一瓶啤酒,喊道:“倒酒!”
你會(huì)怎么做?
可能會(huì)有以下反應(yīng):該死,我應(yīng)該怎么做?怎樣能贏!要是輸了怎么辦!?
游戲規(guī)則如下:在10秒內(nèi)把啤酒灌滿,盡可能接近玻璃杯上的標(biāo)記。可以把啤酒倒進(jìn)倒出。
RL(強(qiáng)化學(xué)習(xí))解決方案面臨著類似的任務(wù),高大上且有意義,歡迎了解。
現(xiàn)實(shí)世界中的啤酒問題
環(huán)保共享單車業(yè)務(wù)存在一個(gè)大問題。一天中,每個(gè)單車停放處(杯)的共享單車(啤酒)數(shù)量過多或不足。
紐約市單車停放處的單車過剩和不足
對(duì)于騎自行車的人來說,這十分不便,并且要花費(fèi)數(shù)百萬美元來管理運(yùn)營(yíng),也不劃算。不久前,筆者在紐約大學(xué)的團(tuán)隊(duì)任務(wù)是提供人工智能解決方案,將人工干預(yù)降到最小,幫助管理自行車庫(kù)存。
目標(biāo):每天將各個(gè)單車停放處的數(shù)量保持在1至50之間(想想杯子上的標(biāo)記)。這在共享經(jīng)濟(jì)中被稱為“再平衡問題”。
限制條件:由于運(yùn)營(yíng)限制,團(tuán)隊(duì)每天每小時(shí)只能移動(dòng)1、3或10輛單車(可以倒入或倒出的啤酒量)。當(dāng)然,他們可以選擇什么都不做。團(tuán)隊(duì)移動(dòng)的單車越多,價(jià)格越昂貴。
惰性RL(強(qiáng)化學(xué)習(xí))解決方案
來源:Pexels
團(tuán)隊(duì)決定使用RL (強(qiáng)化學(xué)習(xí)),它克服了傳統(tǒng)方法的許多局限(例如基于規(guī)則和預(yù)測(cè))。
如果想了解RL(強(qiáng)化學(xué)習(xí))以及一些關(guān)鍵概念,喬納森·輝(JonathanHui)撰寫了一篇很棒的介紹,托馬斯·西蒙尼尼(ThomasSimonini )詳細(xì)解釋了解決方案中應(yīng)用的RL算法Q-Learning。
事實(shí)證明,人類創(chuàng)建了極具惰性的人工智能。當(dāng)單車存量超過60輛時(shí),它通常會(huì)選擇不執(zhí)行任何操作或執(zhí)行最少操作(移動(dòng)1或3輛自行車)。似乎有違常理,但這是非常明智的。
根據(jù)直覺,可能會(huì)移動(dòng)盡可能多的單車以將其保持在50輛以下,尤其是在停放處停滿時(shí)。但是,RL(強(qiáng)化學(xué)習(xí))識(shí)別出移動(dòng)成本(移動(dòng)的單車越多,成本越高)以及在某些情況下成功的機(jī)會(huì)。考慮到所剩時(shí)間,根本不可能實(shí)現(xiàn)目標(biāo)。它知道最好的選擇是“放棄”。因此,放棄比繼續(xù)嘗試要付出更少的代價(jià)!
所以呢?當(dāng)人工智能做出非常規(guī)決策時(shí),類似于谷歌Alpha Go研發(fā)的著名Move 37 and 78 ,它們會(huì)挑戰(zhàn)人類的偏見,幫助打破知識(shí)的魔咒,并將人類推向未知的道路。
創(chuàng)造人工智能既是一種發(fā)明,也是一種探索人類內(nèi)心活動(dòng)的旅程。——DeepMind創(chuàng)始人德米斯·哈薩比斯 (Demis Hassabis)在《經(jīng)濟(jì)學(xué)人》雜志《2020年的世界》(The World in 2020)一文中所言。
但是,請(qǐng)保持謹(jǐn)慎。人類價(jià)值體系無可替代,因此人類不會(huì)一落千丈或迷失自我。
哲學(xué)知識(shí)已經(jīng)足夠了,現(xiàn)在現(xiàn)實(shí)一點(diǎn)吧
RL如何管理單車停放處?
下圖顯示了在有無RL的情況下,一天當(dāng)中單車的停放量。
· 藍(lán)色線是無RL情況下的單車停放趨勢(shì)。
· 黃色線是最初RL情況下移出單車的趨勢(shì),很昂貴。
· 綠色線是訓(xùn)練有素的RL,它僅移出足以滿足目標(biāo)的單車,更能了解成本。
作者分析
RL如何決定該做什么?
以下是經(jīng)過98,000次訓(xùn)練后RL解決方案Q表的快照。它解釋了RL如何根據(jù)停放處(垂直數(shù)據(jù))上的自行車數(shù)量來決定做什么(水平數(shù)據(jù))。RL不太可能選擇用紅色進(jìn)行操作。看看底部的紅色區(qū)域。
作者分析
RL能有多智能?以下圖表介紹了RL對(duì)停放處的管理情況。通過深入學(xué)習(xí),RL可以將整體成功率逐步提高到98%,令人印象深刻。
作者分析
希望大家喜歡這篇文章,并由衷地期待RL在現(xiàn)實(shí)世界中展示出的潛力。
-
人工智能
+關(guān)注
關(guān)注
1807文章
49035瀏覽量
249782 -
強(qiáng)化學(xué)習(xí)
+關(guān)注
關(guān)注
4文章
269瀏覽量
11608
發(fā)布評(píng)論請(qǐng)先 登錄
NVIDIA Isaac Lab可用環(huán)境與強(qiáng)化學(xué)習(xí)腳本使用指南

使用英偉達(dá) NVIDIA Air 服務(wù)將仿真與現(xiàn)實(shí)世界連接

18個(gè)常用的強(qiáng)化學(xué)習(xí)算法整理:從基礎(chǔ)方法到高級(jí)模型的理論技術(shù)與代碼實(shí)現(xiàn)

詳解RAD端到端強(qiáng)化學(xué)習(xí)后訓(xùn)練范式

基于LMP91000在電化學(xué)傳感器電極故障檢測(cè)中的應(yīng)用詳解
淺談適用規(guī)模充電站的深度學(xué)習(xí)有序充電策略

【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】+初品的體驗(yàn)
原子的結(jié)構(gòu)在化學(xué)反應(yīng)中的作用
螞蟻集團(tuán)收購(gòu)邊塞科技,吳翼出任強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室首席科學(xué)家
ar與虛擬現(xiàn)實(shí)的區(qū)別 如何優(yōu)化ar應(yīng)用的用戶界面
如何使用ar增強(qiáng)現(xiàn)實(shí)體驗(yàn)
如何使用 PyTorch 進(jìn)行強(qiáng)化學(xué)習(xí)
谷歌AlphaChip強(qiáng)化學(xué)習(xí)工具發(fā)布,聯(lián)發(fā)科天璣芯片率先采用
使用DSPLIB FFT實(shí)現(xiàn)實(shí)現(xiàn)實(shí)際輸入,無需數(shù)據(jù)縮放

使用OpenVINO C# API部署YOLO-World實(shí)現(xiàn)實(shí)時(shí)開放詞匯對(duì)象檢測(cè)

評(píng)論