迄今為止,大部分人工智能落地的技術都在預測技術方面,而不是決策技術,目前決策技術的應用落地還很少。對此,俞揚以診斷報告作比喻,形象地指出,日常生活中想達到目的,比如看到診斷報告識別問題,我們不可能等著病的發(fā)生,而是想辦法將病治愈。但是決策方面落地的技術非常少,據俞揚介紹,以往決策的途徑可以分成以下三種。
南京大學人工智能學院俞揚教授
第一種是寫規(guī)則,即通過程序員將決策方式或企業(yè)決策的解決方法寫入系統(tǒng)中,這是決策技術的現狀;第二種是做規(guī)劃,將要解決的目標寫下來,用機器找到決策,雖然機器自動解決問題,但問題的定義還是由人來做,一旦定義出現錯誤,定義的和真實的情況不符合,那么系統(tǒng)就沒有任何途徑能夠修正這個定義。第三種途徑是基于學習的途徑,即基于數據驅動的途徑,通過環(huán)境感知來定義應該解決什么樣的問題。俞揚表示,第三種方法看起來更有可能解決真實環(huán)境中做決策的問題。
機器學習的三大技術
若將機器做決策放在學習的框架上,則可以分為無監(jiān)督學習、監(jiān)督學習和強化學習三大類技術。其中,無監(jiān)督學習的數據沒有任何標記,它所做的事是分析數據,從中發(fā)現數據結構是什么。而監(jiān)督學習是目前落地最多的技術,通過很多標注的數據,告訴機器圖像中是什么樣的對象,讓機器可以在數據中預測、識別到對象。
強化學習是機器學習中的一個重要研究領域,從大量數據中反復學習找到最優(yōu)解,只從最終產生的結果來倒推模型應該是什么,正好對應做決策。俞揚指出,實際上這兩年強化學習在做決策方面有很大突破,突破主要是在規(guī)模上,此前大熱的AlphaGo與AlphaGo Zero都是經過深度強化學習后,在游戲中“碾壓”了人類。
強化學習面臨的困境
雖然強化學習發(fā)展較快,但目前所有的成功案例都發(fā)生在電子環(huán)境下。俞揚認為,主要原因是現在的算法效率太低。因此也出現很多批評的聲音,說強化學習,特別在引入深度學習后,需要的數據樣本量更大,導致這種方法無法直接應用于實際中。
俞揚指出,在很多傳統(tǒng)工業(yè),特別是機器人設計中,大家可能會很熟悉做模擬器。模擬器通常用于高成本的行業(yè),在傳統(tǒng)工業(yè)里,為了減少和真正環(huán)境的交互,通常在模擬器里先進行設計。那么,能否讓機器在模擬器中學習決策呢?俞揚以購物平臺為例,指出機器在了解買家行為的過程中,通過多代理模仿學習,根據買家數據進行觀察再行動。他表示,機器學習決策所面臨的環(huán)境更大程度上更困難,因為它是一個開放環(huán)境,而不是和固定的物理定律打交道。
-
人工智能
+關注
關注
1804文章
48599瀏覽量
246014 -
機器學習
+關注
關注
66文章
8487瀏覽量
133994
原文標題:【峰暴】南京大學教授俞揚:讓機器幫你做決策!強化學習助力機器更智能
文章出處:【微信號:robotop2025,微信公眾號:每日機器人峰匯】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
18個常用的強化學習算法整理:從基礎方法到高級模型的理論技術與代碼實現

【「零基礎開發(fā)AI Agent」閱讀體驗】+初品Agent
設備全生命周期數字孿生:從采購到報廢的智能決策閉環(huán)

詳解RAD端到端強化學習后訓練范式

【「具身智能機器人系統(tǒng)」閱讀體驗】+初品的體驗
螞蟻集團收購邊塞科技,吳翼出任強化學習實驗室首席科學家
ar與虛擬現實的區(qū)別 如何優(yōu)化ar應用的用戶界面
如何使用 PyTorch 進行強化學習
具身智能在虛擬現實中的應用實例
谷歌AlphaChip強化學習工具發(fā)布,聯發(fā)科天璣芯片率先采用
增強現實和虛擬現實的聯系和區(qū)別
虛擬現實技術的應用領域有哪些
虛擬現實與完全現實的區(qū)別
虛擬現實技術和增強現實技術區(qū)別與聯系
通過強化學習策略進行特征選擇

評論