理解 Q-Learning - 用TensorFlow構建你的第一個游戲AI入門教程

了解 Q-Learning 的一個好方法，就是將 Catch 游戲和下象棋進行比較。

在這兩種游戲中，你都會得到一個狀態 S。在象棋中，這代表棋盤上棋子的位置。在 Catch 游戲中，這代表水果和籃子的位置。

然后，玩家要采取一個動作，稱作 A。在象棋中，玩家要移動一個棋子。而在 Catch 游戲中，這代表著將籃子向左、向右移動，或是保持在當前位置。據此，會得到一些獎勵 R 和一個新狀態 S'。

Catch 游戲和象棋的一個共同點在于，獎勵并不會立即出現在動作之后。

在 Catch 游戲中，只有在水果掉到籃子里或是撞到地板上時你才會獲得獎勵。而在象棋中，只有在整盤棋贏了或輸了之后，才會獲得獎勵。這也就是說，獎勵是稀疏分布的（sparsely distributed）。大多數時候，R 保持為零。

產生的獎勵并不總是前一個動作的結果。也許，很早之前采取的某些動作才是獲勝的關鍵。要弄清楚哪個動作對最終的獎勵負責，這通常被稱為信度分配問題（credit assignment problem）。

由于獎勵的延遲性，優秀的象棋選手并不會僅通過最直接可見的獎勵來選擇他們的落子方式。相反，他們會考慮預期未來獎勵（expected future reward），并據此進行選擇。例如，他們不僅要考慮下一步是否能夠消滅對手的一個棋子。他們也會考慮那些從長遠的角度有益的行為。

在 Q-Learning 中，我們根據最高的預期未來獎勵選行動。我們使用 Q 函數進行計算。這個數學函數有兩個變量：游戲的當前狀態和給定的動作。因此，我們可以將其記為 Q（state，action）。在 S 狀態下，我們將估計每個可能的動作 A 所帶來的的回報。我們假定在采取行動 A 且進入下一個狀態 S' 以后，一切都很完美。

對于給定狀態 S 和動作 A，預期未來獎勵 Q（S，A）被計算為即時獎勵 R 加上其后的預期未來獎勵 Q（S'，A'）。我們假設下一個動作 A' 是最優的。

由于未來的不確定性，我們用 γ 因子乘以 Q（S'，A'）表示折扣：

Q(S,A) = R + γ * max Q(S'，A')

象棋高手擅長在心里估算未來回報。換句話說，他們的 Q 函數 Q（S，A）非常精確。大多數象棋訓練都是圍繞著發展更好的 Q 函數進行的。玩家使用棋譜學習，從而了解特定動作如何發生，以及給定的動作有多大可能會導致勝利。但是，機器如何評估一個 Q 函數的好壞呢？這就是神經網絡大展身手的地方了。

最終回歸

玩游戲的時候，我們會產生很多「經歷」，包括以下幾個部分：

初始狀態，S

采取的動作，A

獲得的獎勵，R

下一狀態，S'

這些經歷就是我們的訓練數據。我們可以將估算 Q（S，A）的問題定義為回歸問題。為了解決這個問題，我們可以使用神經網絡。給定一個由 S 和 A 組成的輸入向量，神經網絡需要能預測 Q（S，A）的值等于目標：R + γ * max Q(S'，A')。

如果我們能很好地預測不同狀態 S 和不同行為 A 的 Q（S，A），我們就能很好地逼近 Q 函數。請注意，我們通過與 Q（S，A）相同的神經網絡估算 Q（S'，A'）。

訓練過程

給定一批經歷，其訓練過程如下：

1、對于每個可能的動作 A'（向左、向右、不動），使用神經網絡預測預期未來獎勵 Q（S'，A'）；

2、選擇 3 個預期未來獎勵中的最大值，作為 max Q（S'，A'）；

3、計算 r + γ * max Q(S'，A')，這就是神經網絡的目標值；

4、使用損失函數（loss function）訓練神經網絡。損失函數可以計算預測值離目標值的距離。此處，我們使用 0.5 * (predicted_Q(S,A)—target)2 作為損失函數。

在游戲過程中，所有的經歷都會被存儲在回放存儲器（replay memory）中。這就像一個存儲對的簡單緩存。這些經歷回放類同樣能用于準備訓練數據。讓我們看看下面的代碼：

classExperienceReplay(object):""" During gameplay all the experiences < s, a, r, s’ > are stored in a replay memory. In training, batches of randomly drawn experiences are used to generate the input and target for training. """def__init__(self, max_memory=100, discount=.9):""" Setup max_memory: the maximum number of experiences we want to store memory: a list of experiences discount: the discount factor for future experience In the memory the information whether the game ended at the state is stored seperately in a nested array [... [experience, game_over] [experience, game_over] ...] """self.max_memory = max_memory self.memory = list() self.discount = discountdefremember(self, states, game_over):#Save a state to memoryself.memory.append([states, game_over])#We don't want to store infinite memories, so if we have too many, we just delete the oldest oneiflen(self.memory) > self.max_memory:delself.memory[0]defget_batch(self, model, batch_size=10):#How many experiences do we have?len_memory = len(self.memory)#Calculate the number of actions that can possibly be taken in the gamenum_actions = model.output_shape[-1]#Dimensions of the game fieldenv_dim = self.memory[0][0][0].shape[1]#We want to return an input and target vector with inputs from an observed state...inputs = np.zeros((min(len_memory, batch_size), env_dim))#...and the target r + gamma * max Q(s’,a’)#Note that our target is a matrix, with possible fields not only for the action taken but also#for the other possible actions. The actions not take the same value as the prediction to not affect themtargets = np.zeros((inputs.shape[0], num_actions))#We draw states to learn from randomlyfori, idxinenumerate(np.random.randint(0, len_memory, size=inputs.shape[0])):""" Here we load one transition from memory state_t: initial state s action_t: action taken a reward_t: reward earned r state_tp1: the state that followed s’ """state_t, action_t, reward_t, state_tp1 = self.memory[idx][0]#We also need to know whether the game ended at this stategame_over = self.memory[idx][1]#add the state s to the inputinputs[i:i+1] = state_t# First we fill the target values with the predictions of the model.# They will not be affected by training (since the training loss for them is 0)targets[i] = model.predict(state_t)[0]""" If the game ended, the expected reward Q(s,a) should be the final reward r. Otherwise the target value is r + gamma * max Q(s’,a’) """# Here Q_sa is max_a'Q(s', a')Q_sa = np.max(model.predict(state_tp1)[0])#if the game ended, the reward is the final rewardifgame_over:# if game_over is Truetargets[i, action_t] = reward_telse:# r + gamma * max Q(s’,a’)targets[i, action_t] = reward_t + self.discount * Q_sareturninputs, targets

定義模型

閱讀全文

本文導航

第 1 頁：用TensorFlow構建你的第一個游戲AI入門教程
第 2 頁：理解 Q-Learning
第 3 頁：定義模型
第 4 頁：Catch 機器人的動作

AI(263626) AI(263626)

TensorFlow如何入門

TensorFlow 入門（四）

2020-05-27 17:40:06

TensorFlow的特點和基本的操作方式

Tensorflow是Google開源的深度學習框架，來自于Google Brain研究項目，在Google第一代分布式機器學習框架DistBelief的基礎上發展起來。Tensorflow于

2020-11-23 09:56:04

tensorflow怎么入門

tensorflow入門(五）

2020-05-28 13:05:23

入門教程

51單片機學習入門教程

2013-04-14 14:35:07

入門教程

基礎的Proteus入門教程，有需要的可以看一下

2016-11-20 17:36:39

用騰訊優圖 AI 視覺模組在樹莓派上玩吃火鍋體感游戲

能替代日常桌面計算機的多種用途，包括文字處理、電子表格、媒體中心甚至是游戲。并且樹莓派還可以播放高至 1080p 的高清視頻。神奇的 VisionSeed提到 AI 體感游戲，大家第一時間想到的可能是

2020-07-21 15:43:30

第一個TensorFlow程序（hello world）詳解

在任何計算機語言中學習的第一個程序是都是 Hello world，本教程中也將遵守這個慣例，從程序 Hello world 開始。上一節進行 TensorFlow 安裝驗證的代碼如下：下面一

2020-07-22 10:26:51

FPGA入門：第一個工程實例之設計輸入

FPGA入門：第一個工程實例之設計輸入本文節選自特權同學的圖書《FPGA/CPLD邊練邊學——快速入門Verilog/VHDL》書中代碼請訪問網盤：http://pan.baidu.com/s

2015-02-28 10:41:14

FPGA入門教程

FPGA入門教程 FPGA 入門教程 1 ．數字電路設計入門 2 ．FPGA 簡介 3 ．FPGA 開發流程 4 ．RTL設計 5 ．QuartusⅡ設計實例 6.ModelSim和Testbench

2012-08-11 11:40:44

FPGA學習總結和入門教程（大家可以一個一個來學習！）

`FPGA學習總結和入門教程，我們一起交流FPGA。歡迎交流！`

2013-04-01 09:49:53

Labview小白，求一份入門教程和教材

Labview小白，現在想學習這個，求一份入門教程和教材，非常感謝！

2017-06-10 22:56:04

Servlet入門----創建第一個自己的Servlet小程序

Servlet入門----創建第一個自己的Servlet小程序使用開發工具創建第一步：打開Myeclipse或者Eclipse，新建一個Web project，然后新建一個類Demo01.java

2018-01-31 13:48:56

[轉帖]最經典的JAVA基礎入門教程

最經典的JAVA基礎入門教程 從零開始直到深入的研究，講解很細，思路非常清晰！基礎就附帶了把所有基礎知識融合進去的一個模擬銀行項目，絕對是學習Java的好教程，包括入門教程PDF

2010-06-04 10:42:53

labview入門教程，每日一練

入門教程，每日一練第一期簡單溫度波形圖程序設計我也是初學者，可以一起學習討論

2018-09-05 14:26:37

labview入門教程，每日一練3

入門教程，每日一練第三期用三種方法實現公式Y=AX[sup]2[/sup]+BX+C的計算我也是初學者，可以一起學習討論

2018-09-05 23:15:06

【EASY EAI Nano開源套件試用體驗】運行開發板的第一個程序

(easy-eai.com)，給我的第一印象是，這個網站非常簡潔明了，對其產品的介紹也非常簡潔、到位。2、經過簡單的閱讀網站的內容，可以說是通俗易懂，從零基礎進行了詳細介紹，對于想入門嵌入式開發的小伙伴來說，這個網站

2022-09-24 09:49:09

【KV260視覺入門套件試用體驗】Vitis AI 構建開發環境，并使用inspector檢查模型

Optimizer 等，以支持不同層次的開發需求。提供多種示例設計和教程，展示如何在賽靈思硬件平臺上實現各種 AI 應用場景。 Visits AI 怎么用？第一步：在ubuntu環境下，執行如下命令： git

2023-10-14 15:34:26

【Thunderboard Sense試用體驗】第一個uart例程

正式搭建環境，完成第一個項目。聲明一下，我用的代碼是官方的例程，本想發自己的例程，但是那么久沒發帖子了，加上剛搞明白怎樣搭環境，所以，先發官方的例程，好給大家個指導。當然要把板子插上，出現如下提示，說明板子

2017-05-27 12:18:53

不知不覺22年，你還能想得起你的第一個網名嗎？

`不知不覺22年，你還能想得起你的第一個網名嗎？中國互聯網已經22歲了！你的第一個網名是什么？你還記得起來嗎？中國互聯網已經22歲了，是不是很意外？時間都去哪了？22年間，互聯網的社交工具也發生

2016-04-22 13:54:11

不知不覺22年，你還能想得起你的第一個網名嗎？

`中國互聯網已經22歲了！你的第一個網名是什么？你還記得起來嗎？中國互聯網已經22歲了，是不是很意外？時間都去哪了？22年間，互聯網的社交工具也發生了巨大的變化，從聊天室到QQ，從MSN到微博，彈指

2016-04-21 11:19:58

世界上第一個計算機程序是干嘛用的？

是否好奇過世界上第一個計算機程序是干嘛用的？世界上第一個程序是1842年寫的，恰好在第一個能被稱為計算機（你看到它不會認為它是計算機）的真正機器。這段代碼的作者是 Ada Augusta，被封

2014-12-03 14:53:46

使用 TensorFlow, 你必須明白 TensorFlow

CPU 或 GPU). 一般你不需要顯式指定使用 CPU 還是 GPU, TensorFlow 能自動檢測. 如果檢測到 GPU, TensorFlow 會盡可能地利用找到的第一個 GPU 來執行操作

2018-03-30 20:03:30

使用Vivado VHDL無法運行第一個bitfile

嗨，我剛剛購買了我的第一個FPGA開發板，一個Nexys4 DDR，我無法運行第一個bitfile。我正在做Vivado VHDL教程。仿真工作，我可以生成一個位文件，但是當我對電路板進行編程

2020-03-27 06:54:34

關于 TensorFlow

Tensorflow 有一個合理的c++使用界面，也有一個易用的python使用界面來構建和執行你的graphs。你可以直接寫python/c++程序，也可以用交互式的ipython界面來用Tensorflow

2018-03-30 19:57:24

關于入門教程中的六路互補PWM

大家嘗試過入門教程中的互補PWM的例程嗎？我試了之后示波器連PWM波都沒有檢測到，不知道為什么。求出一個可以產生可調占空比和死區時間的互補PWM歷程。

2018-07-23 00:39:13

分享一個機器學習Demo，很受用

TensorFlow入門：第一個機器學習Demo

2019-02-12 10:13:51

初學Arduino 有什么好的入門教程？

初學Arduino有什么好的入門教程推薦下哈

2020-06-12 05:55:51

制作你的第一個電路來學習焊接

描述制作你的第一個電路來學習焊接

2022-08-22 07:58:45

哪位大俠有labview的入門教程啊？

哪位大俠有labview的入門教程啊？，有的話發我郵箱啊，謝謝。shengshm1989@163.com

2012-03-11 23:13:26

如何入門51單片機？如何利用51單片機點亮第一個led小燈？

如何入門51單片機？如何利用51單片機點亮第一個led小燈？

2021-10-20 07:28:09

如何使用STM32CUBEMX點亮你的第一個LED？

如何使用STM32CUBEMX點亮你的第一個LED？

2021-10-11 09:35:21

如何在STM32MP1上構建和執行第一個C++ 代碼？

誰能幫助我在 STM32MP1 上構建和執行第一個 C++ 代碼？

2022-12-05 07:29:59

如何建立第一個C項目？

51單片機C語言學習雜記建立您的第一個C項目

2021-03-02 07:33:51

如何點亮第一個LED燈？

如何點亮第一個LED燈？

2022-01-20 06:58:38

干貨 | TensorFlow的55個經典案例

TensorFlow 提供了簡化的接口的庫。里面有很多示例和預構建的運算和層。使用教程：TFLearn 快速入門。通過一個具體的機器學習任務學習 TFLearn 基礎。開發和訓練一個深度神經網絡分類器

2018-10-09 11:28:37

快速構建并迭代你的第一個系統

進行中轉。? 更多…雖然我在反垃圾郵件領域已經有了一定的經驗，卻依然難以保證每次都能順利在上面的方向中進行抉擇。如果你在此領域并不是一個專家，難度會變得更大。如果在一開始就試圖設計和構建出完美的系統會

2018-12-18 09:11:38

怎樣用CubeMX創建第一個project

如何去安裝CubeMX？怎樣用CubeMX創建第一個project？

2021-09-28 06:15:37

我也發一個 Labview 官網入門教程

本帖最后由鄭子鑫… 于 2015-3-6 11:16 編輯 Labview 官網入門教程

2015-03-06 11:15:10

我的第一個labview程序：計算器

2017年入門labview的第一個程式，從此激發了我的興趣但也只是當作興趣，偶爾學學現在想把它作為自己的職業，不知前路如何，且邊走邊說吧！

2019-12-28 18:45:57

本章的目的是讓你了解和運行 TensorFlow!

]為了進一步激發你的學習欲望, 我們想讓你先看一下 TensorFlow 是如何解決一個經典的機器學習問題的. 在神經網絡領域, 最為經典的問題莫過于 MNIST 手寫數字分類問題. 我們準備了兩篇

2018-03-30 19:58:25

求 labview實用入門教程

`本人因病掉課，現在已經跟不上進度，求 labview實用入門教程，多例題，講解清晰，謝！！！！！！`

2012-02-09 05:22:31

求51單片機入門教程

求51單片機入門教程

2012-05-19 19:22:06

求ARM入門教程

誰那里有較全的ARM入門教程，麻煩發一份到我的郵箱去，gd_binliao@163.com萬分感激

2013-01-24 21:24:09

求NI labview 入門教程

求NI labview 入門教程

2013-03-25 20:52:53

求multisim 12.0入門教程（中文版）

2016-07-16 14:05:04

求助我的第一個程序

第一個程序，出現了這樣的問題，不會做了，怎么辦，我是用ardublock寫的程序

2017-02-28 16:50:51

求助，用CubeMX配置占空比30%的PWM輸出第一個波形不準確是為什么

我用的是G0的芯片配置，通過抓波發現第一個波形永遠與我配置的占空比不準確，但是除了第一個周期不準確外，后面的都沒問題。

2023-08-07 07:26:12

求助，用CubeMX配置占空比30%的PWM輸出第一個波形不準確是為什么？

我用的是G0的芯片配置，通過抓波發現第一個波形永遠與我配置的占空比不準確，但是除了第一個周期不準確外，后面的都沒問題。

2024-03-18 07:55:05

求大神分享51單片機的基礎入門教程

求大神分享51單片機的基礎入門教程

2021-09-18 07:14:51

點亮人生中的第一個流水燈

上期回顧：上篇文章我寫了單片機入門（二）：點亮奇數位/偶數位LED燈**單片機入門（4）：點亮人生中的第一個流水燈一、需求分析做一個簡單的項目，我們也要對其進行分析，看看如何得到咱們想要的結果。1

2022-01-19 07:59:40

請問誰有Altiumm Desgner的入門教程嗎？

求一套Altiumm Desgner的入門教程

2019-09-20 04:35:59

誰有入門教程分享一下啊

求入門教程！！！

2018-10-26 08:42:03

零基礎小白入門AI，你需要知道這些！

不好，我該怎樣去學AI呢？這些消息都在反應一個問題：零基礎的小白童鞋，該如何入門AI？其實訊飛開放平臺之前也零散地回答過這些問題，今天晚上我們就來系統地說下這個問題，希望能幫助到更多的小伙伴。認識AI

2018-06-08 11:04:34

POWERPCB入門教程

POWERPCB入門教程非常詳細的介紹了其對應功能，是份不錯的資料

2006-03-12 01:24:00

《uVision2入門教程》

2006-03-21 20:19:47

單片機入門教程

單片機入門教程

2006-03-21 20:27:05

425

2130

單片機入門教程第一課單片機概述

單片機入門教程第一課單片機概述 1、何謂單片機　　一臺能夠工作的計算機要有這樣幾個部份構成：CPU（進行運算、控制）、RAM（數據存

2010-01-07 16:54:13

1264

單片機入門教程第19課-定時、中斷實驗一

單片機入門教程第19課-定時、中斷實驗一　1、利用定時器實現燈的閃爍在學單片機時我們第一個例子就是燈的閃爍，那是用延時程序做的

2010-01-07 15:50:49

994

Mentor EN入門教程

本內容詳細介紹了Mentor EN入門教程，本內容是PPT格式，歡迎大家學習

2011-05-10 15:11:40

硬件工程師入門教程

硬件工程師入門教程硬件工程師入門教程硬件工程師入門教程硬件工程師入門教程硬件工程師入門教程

2016-01-05 15:53:18

240

123

4884

tensorflow的構建流程

本文主要闡述了tensorflow的構建流程。

2020-12-04 15:01:14

1707

113

已全部加載完成

搜索歷史

理解 Q-Learning - 用TensorFlow構建你的第一個游戲AI入門教程

最終回歸

訓練過程

定義模型

本文導航

評論