近日,中國科學院自動化研究所(以下簡稱自動化所)宣布開放“廟算·智勝”戰術兵棋即時策略人機對抗平臺,旨在進一步推動人機對抗智能技術研究。據了解,該平臺曾用于“先知·兵圣”智能博弈對抗系列賽事,具有平臺開放、在線對抗、技術共享等特點。
人機對抗是國際公認的探索決策智能重要途徑之一。作為國家新一代人工智能的重要發展方向,決策智能的研究和發展方興未艾。同時,由于決策智能涉及多個學科的交叉,相關的探索尚須各方共同努力。
涉及多個學科
到底該如何定義決策智能?在近日舉辦的“首屆智能決策論壇”上,自動化所所長徐波認為,由于我們對人類智能的機理仍缺乏系統了解,對人工智能做內涵式、學科式的定義仍然困難重重。但他介紹說,決策智能強調智能“產生于與其所處環境的交互”,且智能應具備“對不確定性環境的探索和發現”的能力。
他解釋,決策智能要求智能體能在不確定的環境中做出合適的行動、選擇和決定。而這里的“環境”,指的是人們試圖用人工智能更好地了解、探索、建模和駕馭的物理世界、人類社會等系統。
有別于感知智能,決策智能主要基于對不確定環境的探索,因此需要獲取環境信息和自身的狀態,從而進行自主決策,使由環境反饋的收益最大化。這一反饋形成的系統閉環,將使人工智能擁有更完整的表現形式。
自動化所是國內率先開展人工智能與腦科學交叉研究、建立國內第一個人工智能學院的科研單位。目前,該所正將自主進化智能作為重點投入、發展和突破的方向,已組織20余個團隊開展決策智能基礎理論、算法、環境、評價、應用等研究。
在上述論壇上,歐洲科學院外籍院士、北京大學前沿計算研究中心教授鄧小鐵,清華大學交叉信息科學院助理教授張崇潔,倫敦大學學院計算機系教授汪軍等學者也對決策智能的內涵進行了探討。學者們指出,決策智能帶有強烈的“行為主義”流派的色彩,而同時又能吸收“符號主義”和“連接主義”的精華。這種特點,使得決策智能涉及計算機、控制、數學、認知心理學、神經科學等諸多學科。
“目前基于強化學習等方法的決策智能,主要還是在學習‘狀態’到‘動作’的映射,與可解釋的、因果關系的、可以互動的決策還有很遠距離。”鄧小鐵表示。
與博弈論相互影響
在探索決策智能的諸多路徑之中,多智能體系統(以下簡稱多智能體)是國際上人工智能技術的前沿學科。人們寄希望于彼此通信和協調的多智能體采取協調行動,以解決大型、復雜的現實問題。但目前,很多基于強化學習的多智能體研究方法并不夠成熟。
“博弈論是刻畫和分析多智能體相互之間競爭最好的理論框架。”鄧小鐵認為,博弈論在多智能體系統研究中將扮演理論基礎的角色,同時人工智能的發展也給博弈論學科帶來了深遠的影響。
“從博弈論已有的理論中借鑒想法指導設計強化學習方法,常常能夠獲得較優的結果;而反之,如果沒有相應的理論作為指導,研究者們容易出現‘腳踩西瓜皮,滑到哪兒算哪兒’的尷尬局面。”鄧小鐵說,多智能體系統若想有更好的發展,需要有相應的理論基礎,而博弈論正扮演這個角色。
此外,汪軍認為,機器學習系統本質上只是信息處理系統的一個子集,目前的機器學習與信息理論緊密結合,未來將有越來越多的信息學理論被應用到機器學習以及多智能體系統之中。
應重點投入
“強化學習”是當前互聯網經濟場景中,人們希望實現決策智能的核心方法之一。在工業場景下,目前的做法一般是先在平臺上模擬,再到現實中進行適應。這種場景下的強化學習一般可以相對準確地進行模擬和應用。
然而,在樣本有效性問題上,一旦模擬器模擬出的數據不精確,數據的意義將大打折扣。
上述論壇與會學者介紹說,這是因為,當前的“模擬”多數僅是機械模擬環境,且常用高斯過程的混合模型模擬,仍然處于相對初級的階段。可以看到,當前的強化學習技術在較復雜場景中往往不能很好地工作,只有序列性強、動作空間簡單的場景(如網易云、快手等的音視頻推薦)才比較容易刻畫。
這也導致,相比于計算機視覺等感知智能,決策智能目前的應用落地仍不明顯。針對這一現象,與會學者們認為,虛實混合、數字孿生、教育場景下的搜索推薦等場景都是強化學習有可能產生應用的地方,學術界可以主動進入工業界,一邊創業一邊研究,進而推動工業界變革。
“人工智能還處在對環境沒有適應、認知和學習能力的發展初級階段。”與會學者認為,決策智能作為人工智能三個流派的融合入口,將成為研究的主流。
“決策智能的基礎理論、算法、環境、評價、應用等研究方興未艾。我國應當將面向重大需求的決策智能作為重點投入、發展和突破的方向。”徐波表示。
責編AJX
-
人工智能
+關注
關注
1796文章
47791瀏覽量
240574 -
智能決策
+關注
關注
0文章
8瀏覽量
6759
發布評論請先 登錄
相關推薦
評論