小说排行榜完结版,辰东全部小说,好看的电视剧

許多文章解釋了強(qiáng)化學(xué)習(xí)（RL）的概念，但鮮有文章解釋如何切實(shí)地設(shè)計(jì)實(shí)現(xiàn)現(xiàn)實(shí)世界中的強(qiáng)化學(xué)習(xí)。

小芯這次想分享人工智能范式轉(zhuǎn)變課程，討論設(shè)計(jì)權(quán)衡問題，并深入研究技術(shù)細(xì)節(jié)。

那么，我們開始吧！

首先，喝酒？

想象一下你身處聚會(huì)，有點(diǎn)微醺或酩酊大醉，自愿參加一個(gè)飲酒游戲，想要打動(dòng)一個(gè)（或多個(gè)）頗具魅力的泛泛之交。

有人蒙住你的眼睛，給你一杯或一瓶啤酒，喊道：“倒酒！”

你會(huì)怎么做？

可能會(huì)有以下反應(yīng)：該死，我應(yīng)該怎么做？怎樣能贏！要是輸了怎么辦！？

游戲規(guī)則如下：在10秒內(nèi)把啤酒灌滿，盡可能接近玻璃杯上的標(biāo)記。可以把啤酒倒進(jìn)倒出。

RL（強(qiáng)化學(xué)習(xí)）解決方案面臨著類似的任務(wù)，高大上且有意義，歡迎了解。

現(xiàn)實(shí)世界中的啤酒問題

環(huán)保共享單車業(yè)務(wù)存在一個(gè)大問題。一天中，每個(gè)單車停放處（杯）的共享單車（啤酒）數(shù)量過多或不足。

紐約市單車停放處的單車過剩和不足

對(duì)于騎自行車的人來說，這十分不便，并且要花費(fèi)數(shù)百萬美元來管理運(yùn)營(yíng)，也不劃算。不久前，筆者在紐約大學(xué)的團(tuán)隊(duì)任務(wù)是提供人工智能解決方案，將人工干預(yù)降到最小，幫助管理自行車庫(kù)存。

目標(biāo)：每天將各個(gè)單車停放處的數(shù)量保持在1至50之間（想想杯子上的標(biāo)記）。這在共享經(jīng)濟(jì)中被稱為“再平衡問題”。

限制條件：由于運(yùn)營(yíng)限制，團(tuán)隊(duì)每天每小時(shí)只能移動(dòng)1、3或10輛單車（可以倒入或倒出的啤酒量）。當(dāng)然，他們可以選擇什么都不做。團(tuán)隊(duì)移動(dòng)的單車越多，價(jià)格越昂貴。

惰性RL（強(qiáng)化學(xué)習(xí)）解決方案

來源：Pexels

團(tuán)隊(duì)決定使用RL （強(qiáng)化學(xué)習(xí)），它克服了傳統(tǒng)方法的許多局限（例如基于規(guī)則和預(yù)測(cè)）。

如果想了解RL（強(qiáng)化學(xué)習(xí)）以及一些關(guān)鍵概念，喬納森·輝（JonathanHui）撰寫了一篇很棒的介紹，托馬斯·西蒙尼尼（ThomasSimonini ）詳細(xì)解釋了解決方案中應(yīng)用的RL算法Q-Learning。

事實(shí)證明，人類創(chuàng)建了極具惰性的人工智能。當(dāng)單車存量超過60輛時(shí)，它通常會(huì)選擇不執(zhí)行任何操作或執(zhí)行最少操作（移動(dòng)1或3輛自行車）。似乎有違常理，但這是非常明智的。

根據(jù)直覺，可能會(huì)移動(dòng)盡可能多的單車以將其保持在50輛以下，尤其是在停放處停滿時(shí)。但是，RL（強(qiáng)化學(xué)習(xí)）識(shí)別出移動(dòng)成本（移動(dòng)的單車越多，成本越高）以及在某些情況下成功的機(jī)會(huì)。考慮到所剩時(shí)間，根本不可能實(shí)現(xiàn)目標(biāo)。它知道最好的選擇是“放棄”。因此，放棄比繼續(xù)嘗試要付出更少的代價(jià)！

所以呢？當(dāng)人工智能做出非常規(guī)決策時(shí)，類似于谷歌Alpha Go研發(fā)的著名Move 37 and 78 ，它們會(huì)挑戰(zhàn)人類的偏見，幫助打破知識(shí)的魔咒，并將人類推向未知的道路。

創(chuàng)造人工智能既是一種發(fā)明，也是一種探索人類內(nèi)心活動(dòng)的旅程。——DeepMind創(chuàng)始人德米斯·哈薩比斯（Demis Hassabis）在《經(jīng)濟(jì)學(xué)人》雜志《2020年的世界》（The World in 2020）一文中所言。

但是，請(qǐng)保持謹(jǐn)慎。人類價(jià)值體系無可替代，因此人類不會(huì)一落千丈或迷失自我。

哲學(xué)知識(shí)已經(jīng)足夠了，現(xiàn)在現(xiàn)實(shí)一點(diǎn)吧

RL如何管理單車停放處？

下圖顯示了在有無RL的情況下，一天當(dāng)中單車的停放量。

· 藍(lán)色線是無RL情況下的單車停放趨勢(shì)。

· 黃色線是最初RL情況下移出單車的趨勢(shì)，很昂貴。

· 綠色線是訓(xùn)練有素的RL，它僅移出足以滿足目標(biāo)的單車，更能了解成本。

作者分析

RL如何決定該做什么？

以下是經(jīng)過98，000次訓(xùn)練后RL解決方案Q表的快照。它解釋了RL如何根據(jù)停放處（垂直數(shù)據(jù)）上的自行車數(shù)量來決定做什么（水平數(shù)據(jù)）。RL不太可能選擇用紅色進(jìn)行操作。看看底部的紅色區(qū)域。

作者分析

RL能有多智能？以下圖表介紹了RL對(duì)停放處的管理情況。通過深入學(xué)習(xí)，RL可以將整體成功率逐步提高到98％，令人印象深刻。

作者分析

希望大家喜歡這篇文章，并由衷地期待RL在現(xiàn)實(shí)世界中展示出的潛力。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴