在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

為什么AlphaGo調參用貝葉斯優化?手動調參需要8.3天

DPVg_AI_era ? 來源:lq ? 2018-12-22 09:57 ? 次閱讀

AlphaGo的開發和運行涉及海量數據的多次調參,由于數據規模和復雜度的要求,采用手動調參估計需要8.3天。研究人員使用貝葉斯優化作為自動調參解決方案,效果明顯,自對弈測試中的勝率從50%提高至66.5%,這下人類更沒法下了。

在AlphaGo的開發過程中,它的許多超參數都經過多次貝葉斯優化調整。這種自動調參過程使其棋力顯著提高。在與李世乭的比賽之前,我們調整了最新的AlphaGo的參數,并在自弈對局測試中將勝率從50%提高到66.5%。

這個經過調整的版本在最后一局比賽中應用。當然,由于我們在開發周期中多次調整AlphaGo的參數,因此實際上的棋力提升效果更為明顯。我們希望這個案例研究將引起圍棋愛好者的興趣,同時也為貝葉斯優化相關從業者提供一些見解和靈感。

為什么AlphaGo調參用貝葉斯優化?手動調參需要8.3天

在AlphaGo的設計和開發過程中,貝葉斯優化作為一項常規方式,經常對AlphaGo超參數進行調整,提升棋力。特別是,貝葉斯優化成為AlphaGo與李世乭引人注目比賽中的重要因素。

AlphaGo的運行可以用兩個階段來概括:神經網絡訓練和蒙特卡羅樹搜索(MCTS)。其中每一個階段都存在許多超參數。我們主要注意調整與游戲相關的超參數。

我們之所以這樣做,是因為掌握了性能強大的神經網絡的調節策略,但是在游戲過程中如何調整AlphaGo的人類知識較少。我們對AlphaGo的許多組件進行了元優化。

值得注意的是,我們調整了MCTS超參數,包括管理UCT勘探公式,節點擴展閾值,與MCTS分布式實施相關的幾個超參數,以及快速推出和快速推出之間選擇公式的超參數。每次移動的價值網絡評估。我們還調整了與策略和價值網絡評估相關的超參數。

最后,我們對一個公式進行了元優化,以確定游戲過程中每次行棋的搜索時間。根據調整任務屬性不同,要調整的超參數的數量從3到10不等。

圖1:在前6次迭代中使用高斯過程(GP)和預期改進獲取(EI)函數的貝葉斯優化的一維化表示。上圖所示為GP的均值(藍色)和真正的未知函數(紅色)。在查詢點附近,不確定性降低。下圖為EI采集函數及其建議的下一個查詢點。

在應用貝葉斯優化之前,我們嘗試使用網格搜索來調整AlphaGo的超參數。具體來說,對于每個超參數,我們構建了一個有效值網格,并在當前版本v和固定基線v0之間運行自對弈。對于每個值,我們運行了1000局對局。

這些對局中每次行棋的時間固定為5秒。進行一場對局大約需要20分鐘。通過使用400個GPU將游戲與幾個工作者并行化,大約需要6.7小時來估算單個超參數值的勝率p(θ)。

如果要進行6個超參數的優化,每個參數取5個可能的值,總共需要8.3天。如此高的調參成本是我們采用貝葉斯優化的重要原因。

圖2:最左邊三個圖:估計三個單獨超參數的勝率的后驗均值和方差,同時修復剩余的超參數。垂直條所示為固定的參考參數值。最右邊的圖:兩個超參數的后驗均值,表示這些參數之間的相關性

我們使用改進版的Spearmint進行輸入變形,進行貝葉斯優化。超參數調整過程可由算法1表示(下圖)。

圖3:作為優化步驟函數的觀察值和最大預期勝率的典型值

實驗方法和測試任務

任務1:調整MCTS超參數

我們優化了MCTS超參數,用于管理UCT勘探公式、網絡輸出回火以及快速輸出值和網絡輸出值之間的混合比。要調整的超參數的數量從3到10不等。

AlphaGo的開發涉及許多設計迭代過程。在完成AlphaGo版本開發之后,我們通過貝葉斯優化和自我對弈對其進行了改進。在每次設計迭代開始時,勝率為50%。然而,通過調整MCTS超參數,在與李世乭比賽之前的兩次設計迭代中,勝率增加到63.2%和64.4%(即Elo分數提高了94、103分)。

重要的是,每次我們調整版本時,所獲得的知識(包括超參數值)都會傳遞給下一版本AlphaGo的開發團隊。在與李世乭的比賽結束后,我們繼續優化MCTS超參數,繼續增強AlphaGo的棋力。

任務2:調整面向快棋的AlphaGo用于數據生成

我們運行了行棋時間很短的自弈對局,來生成策略和價值網絡的訓練數據集,與常規行棋時間對局不同,快速對局每步棋限時0.25秒。 AlphaGo在各種版本上的改進取決于這些數據集的質量。因此,快速的數據生成必須盡可能具備強大性能。在這個特殊的時間設置下,最佳的超參數值會發生很大變化,如果沒有適當的先驗知識,手動調參就會受到限制。在調整不同的快棋版本后,四個關鍵版本的Elo收益分別為300、285、145和129。

任務3:調整TPU

張量處理單元(TPU)可以提供比GPU更快的網絡評估速度。

遷移到新硬件后,AlphaGo的性能大幅提升。然而,現有超參數的最佳值發生了改變,并且在分布式TPU實現中還出現了新的超參數。貝葉斯優化在早期的TPU實現中產生了更大幅度的Elo分數提升

任務4:開發并調整動態混合比例公式

早期版本的AlphaGo使用快速輸出值和網絡輸出值評估之間的恒定混合比,無論對局的階段和搜索時間如何變化,這個比例都是不變的。這顯然是不是最優選擇,但我們一直缺乏適當的技術來尋找最優的混合函數。通過引入貝葉斯優化,我們可以定義更靈活的公式,并尋找和調整最佳公式的參數。

圖4b所示為對應于圖b中的四個點的四個混合比對移動數曲線。這表明在150手附近找到混合比的良好值是很重要的。這一發現與AlphaGo自對弈中的關鍵手通常發生在150手至200手之間的觀察結果相一致。

任務5:調整時間控制公式

MCTS是一種隨時可用的算法,其樹搜索可以在任何時候中斷,返回當前的最佳選擇。為了準備與李世乭的正式比賽,我們希望能夠優化所有動作的搜索時間分配,比賽主時間為2小時,每個玩家有3個60秒的讀秒時段。我們將時間分配也視為優化問題,以便最大化地提升勝率。

調整所有超參數后的最佳效果如圖所示

AlphaGo在默認時間設置下獲得66.5%的勝率,每步棋的行棋時間固定為30秒。

未來:繼續開發具有MCTS的AI對弈智能

貝葉斯優化為AlphaGo的超參數調節提供了一種自動化的解決方案。因為傳統的手動調參耗時過長,不具備實現的可能。貝葉斯優化對AlphaGo的勝率提升做出了重大貢獻,并幫助我們獲得了重要的見解,這些見解繼續有助于開發具有MCTS的新版本的AI對弈智能體。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AlphaGo
    +關注

    關注

    3

    文章

    79

    瀏覽量

    28096
  • DeepMind
    +關注

    關注

    0

    文章

    131

    瀏覽量

    11204

原文標題:人類沒法下了!DeepMind貝葉斯優化調參AlphaGo,自弈勝率大漲16.5%

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    ADRC的使用方法和調大致的方向

    由于串級PID還沒搞定,就轉向了自抗擾控制,STM32控制無刷電機做了一個ADRC速度閉環,沒靜差是真的,但感覺也沒想象中那么強,就寫篇博文記錄一下ADRC大概的使用方法和調大致的方向。
    發表于 09-07 06:33

    教你怎樣學會PID調

    不會PID調?這篇文章圖文結合帶你學會PID調!讓你成為PID調大神!!!
    發表于 01-06 07:47

    PID調的相關資料分享

    說明:本文章適用于STM32初學者,想完成一個好玩且有深度的項目但不知道從何下手的同學。PID調是平衡車的精髓所在,參數整定的好壞直接影響到平衡車的平衡效果。有的車平衡時來回晃而參數選的好的車就能
    發表于 01-14 09:14

    針對PID調進行詳細的講解

    ??大家好,我是小政。本篇文章我將針對PID調進行詳細的講解,讓每位小伙伴能夠對比例、積分、微分三個參數如何調節有更加清晰的理解。一、調步驟確立機械中值直立環(內環)——Kp極性、
    發表于 01-14 06:26

    WinGUI_2.3調軟件

    英文版軟件,很好的軟件,WinGUI_2.3調軟件
    發表于 12-08 14:28 ?3次下載

    NAZA_驅動調軟件及說明書

    NAZA 驅動調軟件,需要的可以看一看了
    發表于 02-15 15:10 ?0次下載

    CF飛控調說明

    CF飛控調說明
    發表于 10-09 14:56 ?15次下載

    深度學習的調經驗

    對于深度學習本人也是半路出家. 現在的工作內容主要就是使用CNN做CV任務. 干調這種活也有兩年時間了. 我的回答可能更多的還是側重工業應用, 技術上只限制在CNN這塊.
    的頭像 發表于 06-08 14:41 ?2426次閱讀

    詳解優化方法

    數學是個奇妙的東西,可以把生活中的一切量化。人生也是個奇妙的東西,起起伏伏,好比一個高斯分布函數。今天就結合一些人生的感悟聊聊優化
    的頭像 發表于 07-06 10:34 ?4565次閱讀

    一文秒懂優化/Bayesian Optimization

    ,大神/優化專家們求輕噴,覺得不錯的記得幫點贊/在看/轉發幫擴散哦!謝謝。 梳理這個問題有這么兩個原因: 1、在工業界,最近我看到不少同學在探索并使用
    的頭像 發表于 04-09 11:26 ?1.7w次閱讀
    一文秒懂<b class='flag-5'>貝</b><b class='flag-5'>葉</b><b class='flag-5'>斯</b><b class='flag-5'>優化</b>/Bayesian Optimization

    模型調:CANape與Simulink的強強聯手

    CANape推出新功能Simulink XCP Server,針對Simulink模型以及ECU內部數據的參數化和可視化,讓模型調變得簡單。
    的頭像 發表于 08-01 15:00 ?1690次閱讀
    模型<b class='flag-5'>調</b><b class='flag-5'>參</b>:CANape與Simulink的強強聯手

    什么是調 CCP協議的實現原理

    調就是優化或調整控制算法中的某些參數以獲得系統最佳效果的過程。我們通過校準工具(比如網絡接口卡can盒子和canape)訪問 ECU 中的校準變量并進行更改,注意我們要校準的那些參數都被分組到 ECU 內存的一個特殊部分,稱為
    發表于 06-21 09:12 ?958次閱讀
    什么是<b class='flag-5'>調</b><b class='flag-5'>參</b> CCP協議的實現原理

    機器學習8大調技巧

    今天給大家一篇關于機器學習調技巧的文章。超參數調優是機器學習例程中的基本步驟之一。該方法也稱為超參數優化需要搜索超參數的最佳配置以實現最
    的頭像 發表于 03-23 08:26 ?887次閱讀
    機器學習8大<b class='flag-5'>調</b><b class='flag-5'>參</b>技巧

    LSTM神經網絡的調技巧

    長短時記憶網絡(Long Short-Term Memory, LSTM)是一種特殊的循環神經網絡(RNN),它能夠學習長期依賴信息。在實際應用中,LSTM網絡的調是一個復雜且關鍵的過程,直接影響
    的頭像 發表于 11-13 10:01 ?1408次閱讀

    BP神經網絡的調技巧與建議

    BP神經網絡的調是一個復雜且關鍵的過程,涉及多個超參數的優化和調整。以下是一些主要的調技巧與建議: 一、學習率(Learning Rat
    的頭像 發表于 02-12 16:38 ?408次閱讀
    主站蜘蛛池模板: 四虎影库在线播放 | 久久久噜噜噜久久中文字幕色伊伊 | 天天操国产 | 亚洲丁香网| 在线视频观看一区 | 天天射天天爱天天干 | 亚洲 欧美 日韩 综合 | 在线免费日韩 | 午夜在线视频 | 色骚网 | dvd碟片色爱| 一级爱片 | 久久国产精品99精品国产987 | 激情欧美一区二区三区中文字幕 | 国产乱码精品一区二区三 | 性香港xxxxx免费视频播放 | 性欧美精品 | 成人爽爽激情在线观看 | 五月婷久久 | 人人做人人看 | 久久综合爱| 亚洲综合啪啪 | 丁香婷婷综合五月综合色啪 | 1024视频在线观看国产成人 | 免费被视频网站在线观看 | 欧美精品综合一区二区三区 | 久久影视精品 | 久久婷婷综合五月一区二区 | 日产乱码免费一卡二卡在线 | 成年人午夜影院 | 天堂影院jav成人天堂免费观看 | 女人张开双腿让男人桶爽免 | 免费观看四虎精品成人 | 777奇米四色米奇影院在线播放 | 在线最新版www资源网 | 好吊日在线 | 久久久噜久噜久久综合 | 国产二三区 | 在线三级播放 | 婷色| 午夜免费影视 |