盗墓笔记小说全集,神武八荒一颗小说,盗墓笔记同人小说

專欄中《零神經(jīng)網(wǎng)絡(luò)實戰(zhàn)》系列持續(xù)更新介紹神經(jīng)元怎么工作，最后使用python從0到1不調(diào)用任何依賴神經(jīng)網(wǎng)絡(luò)框架（不使用tensorflow等框架)來實現(xiàn)神經(jīng)網(wǎng)絡(luò)，梯度下降、反向傳播、卷積神經(jīng)網(wǎng)絡(luò)CNN、循環(huán)神經(jīng)網(wǎng)絡(luò)RNN。從0基礎(chǔ)角度進行神經(jīng)網(wǎng)絡(luò)實戰(zhàn)。本篇為第三篇。
作者：司南牧

Alpha Zero就是利用強化學(xué)習(xí)打敗柯潔。可以說強化學(xué)習(xí)是我覺得目前最可以叫做智能的算法。因為不需要數(shù)據(jù)就能自己總結(jié)出經(jīng)驗，這符合人的學(xué)習(xí)方式。

注意：強化學(xué)習(xí)有很多概念，不要一開始被這些概念束縛了。首先得知道強化學(xué)習(xí)大致是什么，再看這些概念就會恍然大悟。本文的思路就是先介紹我對強化學(xué)習(xí)的理解。然后介紹強化學(xué)習(xí)中的一些概念。最后是強化學(xué)習(xí)實踐。

打破概念束縛：強化學(xué)習(xí)是個啥？

答：強化學(xué)習(xí)就是受到動物從生活中學(xué)習(xí)技能的思想啟發(fā)的一種智能算法；那么怎么啟發(fā)的呢？動物學(xué)習(xí)技能的過程就是不斷嘗試各種行為，最后總結(jié)經(jīng)驗，然后以后遇到相同情況直接用以往的經(jīng)驗就可以。強化學(xué)習(xí)就是這么做的。“不斷猜測，檢驗，再猜測，再檢驗，直到找到達成目標(biāo)的經(jīng)驗”這個過程就是強化學(xué)習(xí)。它學(xué)習(xí)的經(jīng)驗叫做模型。學(xué)習(xí)到了這些經(jīng)驗后以后就不用猜測了，直接用經(jīng)驗就可以。強化學(xué)習(xí)“學(xué)到”的經(jīng)驗是什么：“在某個狀態(tài)下，做哪個行為，得到的獎勵最大”，經(jīng)驗這是一個列表是一本教科書。

總結(jié)：強化學(xué)習(xí)的輸出結(jié)果是找到解決某個問題的經(jīng)驗。強化學(xué)習(xí)的過程是不斷亂嘗試，并記錄所處的狀態(tài)和行為，找到某個狀態(tài)下獎勵最大的行為。

為何要用強化學(xué)習(xí)？( 知道為什么才是打破概念束縛的關(guān)鍵）

答：因為智能體不知道哪些行為可以產(chǎn)生獎勵，也不知道什么時候會來獎勵。這些經(jīng)驗都是要從環(huán)境中學(xué)習(xí)所得到。

似懂非懂？沒關(guān)系有個模糊的是那么回事的印象就可以。看下面的例子就懂了。

舉個例子：在高中生物書上有個“巴甫洛夫的狗”這個實驗。就是巴甫洛夫每次給它狗喂食的時候都會搖鈴鐺，然后這條狗慢慢學(xué)到了“搖鈴鐺=有東西吃”這個經(jīng)驗。然后學(xué)到這個經(jīng)驗后，只要“搖鈴鐺”它就會流口水。強化學(xué)習(xí)就是受到這種啟發(fā)而發(fā)明的算法。
從“巴甫洛夫的狗”看強化學(xué)習(xí)幾個概念

強化學(xué)習(xí)思想很簡單，7個詞夠了：

智能體、目標(biāo)、環(huán)境、觀察、狀態(tài)、行動、獎勵

不要慌。接下來用例子來解釋著7個東西是什么。我們用“巴甫洛夫的狗”這個實驗解釋下這強化學(xué)習(xí)這個六個要素。

智能體。首先這條狗它是一個智能體（Agent）。

目標(biāo)。它的目標(biāo)（Goal）是吃飯。

環(huán)境。環(huán)境就是字面意思，它在的這個地方發(fā)生的一切都屬于環(huán)境里面的東西。

觀察。然后，它各種看和聽什么現(xiàn)象和食物相關(guān)。這個過程叫做觀察。

狀態(tài)。觀察到的內(nèi)容叫做狀態(tài)(state)。這里的狀態(tài)是：有沒有飯吃、有沒有人說話、有沒有腳步聲、有沒有鈴聲。

行為。然后它根據(jù)這些觀察會作出一些動作，如：“搖尾巴，流口水等等”。這個叫做行為(ac tion)。行為是根據(jù)觀察到內(nèi)容（狀態(tài)）而作出的。這里可能的行為是（前半部分是狀態(tài)，后半部分是行為）：

聽到腳步聲——搖尾巴

聽到鈴聲——流口水

聽到腳步聲——流口水

看到天黑了——汪汪汪叫

7.獎勵。在這里，獎勵是作出的行為有沒有飯吃。

聽到腳步聲——搖尾巴——沒飯吃

聽到鈴聲——流口水——有飯吃

聽到腳步聲——流口水——沒飯吃

看到天黑了——汪汪汪叫——沒飯吃

從“巴甫洛夫的狗”分析強化學(xué)習(xí)執(zhí)行過程

現(xiàn)在，我想你隱隱約約應(yīng)該看出動物怎么學(xué)習(xí)的了。就是“不斷猜測，檢驗，再猜測，再檢驗”，檢驗唯一標(biāo)準(zhǔn)是有沒有達成目標(biāo)。

但是怎么理性科學(xué)的看待這個問題呢？答：“不斷猜測，檢驗，再猜測，再檢驗，直到找到達成目標(biāo)的經(jīng)驗”這個過程就是強化學(xué)習(xí)。它學(xué)習(xí)的經(jīng)驗叫做模型。學(xué)習(xí)到了這些經(jīng)驗后以后就不用猜測了，直接用經(jīng)驗就可以。強化學(xué)習(xí)“學(xué)到”的經(jīng)驗是什么：“在某個狀態(tài)下，做哪個行為，得到的獎勵最大”，這是一個列表清單。

為何“狗”要不斷嘗試呢？

因為它不知道哪些行為可以產(chǎn)生獎勵，也不知道什么時候會來獎勵。這些都是要從環(huán)境中學(xué)習(xí)所得到。

審核編輯黃昊宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1807

文章
49036

瀏覽量
249793
強化學(xué)習(xí)

強化學(xué)習(xí)

+關(guān)注

關(guān)注
4

文章
269

瀏覽量
11608

91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

搜索歷史

適合初學(xué)者的神經(jīng)網(wǎng)絡(luò)理論到實踐(3):打破概念束縛：什么是強化學(xué)習(xí)？

評論