完结小说,好看的小说君子以泽,新寡妇村传奇

70年來，人們在AI領(lǐng)域“一直連續(xù)犯著同樣的錯(cuò)誤”。

這是“強(qiáng)化學(xué)習(xí)之父”理查德·薩頓（Richard S. Sutton）為同行后輩們敲響的警鐘。

他在博客上發(fā)表最新文章《苦澀的教訓(xùn)》(The Bitter Lesson)，總結(jié)了AI發(fā)展史上的怪圈：

人類不斷試圖把自己的知識和思維方式植入到AI之中，比如用人類的思路教AI下棋、將讓AI按照人類總結(jié)的思路來識別圖像等等。這些做法，能帶來暫時(shí)的性能提升，長期來看卻會阻礙研究的持續(xù)進(jìn)步。

真正的突破，總是來自完全相反的方向。摒棄人類在特定領(lǐng)域的知識、利用大規(guī)模算力的方法，總會獲得最終勝利。

靠自我對弈磨煉圍棋技藝的AlphaGo，基于統(tǒng)計(jì)方法、深度學(xué)習(xí)來識別語音、圖像的算法，一次次擊敗先前那些濃縮了人類知識的AI，甚至人類自己。

搜索、學(xué)習(xí)，充分利用大規(guī)模算力才是王道。用人類在特定領(lǐng)域的知識來提升AI智能體的能力，都是在走彎路。

薩頓說：“將AI建立在我們對自身思維方式的認(rèn)知上，是行不通的?！?/p>

OpenAI首席科學(xué)家Ilya Sutskever精辟地總結(jié)了薩頓的核心觀點(diǎn)：算力常勝。

文章一發(fā)出，就引發(fā)了熱烈的討論，OpenAI CTO Greg Brockman、特斯拉AI總監(jiān)Andrej Karpathy等人都在轉(zhuǎn)發(fā)附議。

DeepMind機(jī)器學(xué)習(xí)團(tuán)隊(duì)主管&牛津大學(xué)教授Nando de Freitas甚至稱之為“周末必讀”。

然而，也有反對的聲音。

牛津大學(xué)計(jì)算機(jī)系教授希蒙·懷特森（Shimon Whiteson）連發(fā)13條Twitter反駁薩頓的觀點(diǎn)，表示“堅(jiān)決不同意”，同樣獲得了大量支持。

懷特森認(rèn)為，構(gòu)建AI當(dāng)然需要融入人類知識，問題只在于該何時(shí)、如何、融入哪些知識。

AI的歷史進(jìn)程是一場融入人類知識的勝利。科學(xué)家們廣泛嘗試，拋棄失敗的99%，留下有用的1%。而這1%，對現(xiàn)代人工智能算法成功的重要性不亞于薩頓推崇的大量計(jì)算資源。

一場隔空論戰(zhàn)，就這樣展開了。

我們先讀完“本周末必讀”的薩頓博文，看看正方的觀點(diǎn)。

苦澀的教訓(xùn)

回溯70年的AI研究，從中得出的最大經(jīng)驗(yàn)是，利用計(jì)算力的通用方法最終總是最有效的，而且遙遙領(lǐng)先。

出現(xiàn)這種情況的終極原因是摩爾定律，或者寬泛一點(diǎn)來說，是單位算力成本的持續(xù)指數(shù)級下降。

大多數(shù)AI研究都以智能體可用算力恒定為前提進(jìn)行，在這種情況下，利用人類知識可能是提升性能的唯一方法。但是，將目光投向比一個(gè)典型研究項(xiàng)目更長遠(yuǎn)的時(shí)間段，就會發(fā)現(xiàn)必然有更多可用的算力出現(xiàn)。

為了尋求短期可見的提升，研究人員會利用該領(lǐng)域的人類知識，但從長遠(yuǎn)來看，利用算力才是唯一重要的事。

雖然但這兩者看似沒有必要相互對立，但實(shí)際上它們往往是對立的。

在一個(gè)方向上花費(fèi)的時(shí)間，就必然不能花在另一個(gè)方向。對于某一種方法的投入也會帶來心理上的承諾。

同時(shí)，用人類知識來提升AI會傾向于使方法復(fù)雜化，讓運(yùn)用算力的通用計(jì)算方法變得不太適用。

很多AI研究人員后知后覺地領(lǐng)悟了這種“苦澀的教訓(xùn)”?；仡櫰渲凶钪匾囊恍╊H有啟發(fā)。

在國際象棋領(lǐng)域，1997年擊敗國際象棋冠軍卡斯帕羅夫的深藍(lán)，就是基于大規(guī)模深度搜索。

當(dāng)時(shí)，大多數(shù)計(jì)算機(jī)國際象棋研究者都以沮喪的眼光看待它，他們追求用人類對國際象棋特殊結(jié)構(gòu)的理解制勝。

當(dāng)一種更簡單的、有特殊硬件和軟件加持的基于搜索的方法被證明更有效，這些基于人類知識下國際象棋的研究者輸?shù)靡稽c(diǎn)都“不體面”。他們說，這種“用蠻力”的搜索可能這次能贏，但這終究不是通用策略，無論如何這也不是人類下棋的方式。

他們希望基于人類輸入的方法獲勝，卻事與愿違，只剩失望。

計(jì)算機(jī)圍棋領(lǐng)域，研究進(jìn)展也遵循著同樣的模式，只是比國際象棋遲了20年。這一領(lǐng)域最初的眾多努力，都是利用人類知識或游戲的特殊特性避免搜索，然而，搜索一被大規(guī)模高效應(yīng)用，這些努力都變得無關(guān)緊要，甚至更糟。

利用自我對弈來學(xué)習(xí)一種價(jià)值函數(shù)同樣重要（在許多其他游戲、甚至在國際象棋中也一樣，雖然在1997年的深藍(lán)項(xiàng)目中沒有發(fā)揮很大作用）。通過自我對弈來學(xué)習(xí)，以及學(xué)習(xí)本身，其實(shí)都和搜索一樣，讓大規(guī)模計(jì)算有了用武之地。

搜索和學(xué)習(xí)是AI研究中應(yīng)用大規(guī)模計(jì)算力的兩類最重要技術(shù)。

在計(jì)算機(jī)圍棋和國際象棋項(xiàng)目中，研究人員最初努力的方向是如何去利用人類的理解（這樣就不需要太多的搜索），很久以后，才通過擁抱搜索和學(xué)習(xí)取得了更大的成功。

在語音識別領(lǐng)域，很早之前曾有一場競賽，1970年由DARPA主辦。

在這場比賽中，一部分參賽者運(yùn)用那些需要人類知識（單詞知識、音素知識、人類聲道知識等等）的特殊方法。也有一部分人基于隱馬爾可夫模型(HMMs)完成比賽。這種新方法本質(zhì)上更具統(tǒng)計(jì)性質(zhì)，也需要更大的計(jì)算量。

不出所料，最終統(tǒng)計(jì)方法戰(zhàn)勝了基于人類知識的方法。

這場比賽為所有自然語言處理任務(wù)都帶來了巨大的改變，在過去的幾十年里，統(tǒng)計(jì)和算力逐漸占據(jù)主導(dǎo)地位。

語音識別中興起沒多久的深度學(xué)習(xí)，也是朝著這一方向邁出的最新一步。深度學(xué)習(xí)方法對人類知識的依賴甚至更少，用到了更多的算力。通過在大型訓(xùn)練集上的學(xué)習(xí)，能得到更好的語音識別系統(tǒng)。

就像在棋類游戲中一樣，研究人員總是試圖讓系統(tǒng)按照他們心目中的人類的思維方式工作，試圖把這些知識放進(jìn)計(jì)算機(jī)的系統(tǒng)里。但最終，當(dāng)摩爾定律帶來大規(guī)模算力，其他人也找到了一種充分利用它的方法時(shí)，會發(fā)現(xiàn)原來的做法適得其反，是對研究人員時(shí)間的巨大浪費(fèi)。

在計(jì)算機(jī)視覺領(lǐng)域，也有類似的模式。早期的方法，將視覺設(shè)想為搜索邊緣、廣義圓柱體，或者SIFT算法捕捉的特征。但現(xiàn)在，所有這些方法都被拋棄了?，F(xiàn)代的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)，只使用卷積和某些不變性的概念，而效果要好得多。

這些教訓(xùn)告訴我們，（AI）這個(gè)領(lǐng)域，我們?nèi)匀粵]有完全了解，我們連續(xù)犯著同樣的錯(cuò)誤。

為了認(rèn)清狀況，有效防止犯錯(cuò)，我們必須理解這些錯(cuò)誤有什么吸引力。

我們必須從這”苦澀的教訓(xùn)”中學(xué)習(xí)：長遠(yuǎn)來看，將AI建立在我們對自身思維方式的認(rèn)知上是行不通的。

而突破性進(jìn)展最終會來自完全相反的方法：基于搜索和學(xué)習(xí)進(jìn)行規(guī)模計(jì)算。

最終的成功總是帶來些許怨恨，通常也不被完全理解，因?yàn)樗搅水?dāng)前受歡迎的、以人為中心的方法。

從歷史的教訓(xùn)中，我們能學(xué)到兩點(diǎn)。

第一，通用型方法有強(qiáng)大的力量。即使可用的算力變得非常大，這些方法仍然可以繼續(xù)擴(kuò)展，運(yùn)用增加的算力。似乎可以按照這種方式任意擴(kuò)展的方法有兩種：搜索和學(xué)習(xí)。

第二，思維的實(shí)際內(nèi)容復(fù)雜到非?？膳聼o可救藥。我們不該再試圖尋找簡單的方法來思考其內(nèi)容，比如，用簡單的方式去思考空間、物體、多智能體或者對稱性。

所有這些，都是隨意、本質(zhì)上非常復(fù)雜的外部世界的一部分。它們不應(yīng)該內(nèi)置在任何一個(gè)AI智能體中，因?yàn)樗鼈儚?fù)雜得沒有盡頭。相反，我們應(yīng)該只構(gòu)建能發(fā)現(xiàn)和捕獲這種任意復(fù)雜性的元方法，

這種方法的本質(zhì)是能夠很好地找到近似值。不過，尋找的工作應(yīng)該交給我們的方法，而不是我們自己。

我們需要的是能像我們一樣進(jìn)行發(fā)現(xiàn)的AI智能體，而不是包含我們已經(jīng)發(fā)現(xiàn)的東西在內(nèi)的AI。

在我們發(fā)現(xiàn)的基礎(chǔ)上建立AI，只會讓它更難看到發(fā)現(xiàn)的過程是如何進(jìn)行的。

原文鏈接：

http://www.incompleteideas.net/IncIdeas/BitterLesson.html

“甜蜜的一課”

堅(jiān)決不同意薩頓觀點(diǎn)的懷特森老師認(rèn)為，構(gòu)建AI當(dāng)然需要融入人類知識，問題只在于該何時(shí)、如何、融入哪些知識。AI歷史上有“甜蜜的一課”（The Sweet Lesson），我們在嘗試尋找正確先驗(yàn)知識的過程中，推動(dòng)了AI的進(jìn)步。

他將薩頓的觀點(diǎn)總結(jié)為：“AI的歷史告訴我們，利用算力最終總是戰(zhàn)勝利用人類知識?！?/p>

以下是懷特森Twitter內(nèi)容的翻譯整理：

我認(rèn)為這是對歷史的一種特殊解釋。的確，很多把人類知識融入AI的努力都已經(jīng)被拋棄，隨著其他資源（不僅僅是計(jì)算力，還包括存儲、能源、數(shù)據(jù)）的豐富，還會拋棄更多。

但是，由此產(chǎn)生的方法的成功，不能僅僅歸功于這些豐富的資源，其中那些沒有被拋棄的人類知識也功不可沒。

要是想脫離卷積、LSTM、ReLU、批歸一化（batchnorm）等等做深度學(xué)習(xí)，祝你好運(yùn)。要是拋開“圍棋是靜態(tài)、零和、完全可觀察的”這一先驗(yàn)知識，就像搞定這個(gè)游戲，也祝你好運(yùn)。

所以，AI的歷史故事并非融入人類知識一直失敗。恰恰相反，這是融入人類知識的勝利，實(shí)現(xiàn)的路徑也正是一種完全符合慣例的研究策略：嘗試很多方法，拋棄失敗的99%。

剩下的1%對現(xiàn)代人工智能的成功至關(guān)重要，就和AI所以來的大量計(jì)算資源一樣關(guān)鍵。

薩頓說，世界固有的復(fù)雜性表明，我們不該把先驗(yàn)知識融入到系統(tǒng)中。但是我的觀點(diǎn)恰恰相反：正是這種復(fù)雜性，導(dǎo)致他推崇的搜索和學(xué)習(xí)方法極度復(fù)雜難解。

只有借助正確的先驗(yàn)知識，正確的歸納偏見（inductive biases），我們才能掌握這種復(fù)雜性。

他說，“現(xiàn)代的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)，只使用卷積和某些不變性的概念，而效果要好得多?！币粋€(gè)“只”字就凸顯了這種斷言的武斷性。

如果沒有這些卷積和不變性，深度學(xué)習(xí)就不會成功，但它們卻被視作微小、通用到可以接受。

就是這樣，“苦澀的教訓(xùn)”避開了主要問題，這根本不是要不要引入人類知識的問題（因?yàn)榇鸢革@然是肯定的），而是該問這些知識是什么，該在何時(shí)、如何使用它。

薩頓說，“我們需要的是能像我們一樣進(jìn)行發(fā)現(xiàn)的AI智能體，而不是包含我們已經(jīng)發(fā)現(xiàn)的東西在內(nèi)的AI。”當(dāng)然。但是我們善于發(fā)現(xiàn)正是因?yàn)槲覀兲焐鷰в姓_的歸納偏見。

AI歷史上的“甜蜜一課”是這樣的：雖然找到正確的歸納偏見很難，但尋找的過程為原本難解的問題帶來了巨大的進(jìn)展。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

摩爾定律

摩爾定律

+關(guān)注

關(guān)注
4

文章
640

瀏覽量
79871
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5561

瀏覽量
122794
強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)

+關(guān)注

關(guān)注
4

文章
269

瀏覽量
11599

原文標(biāo)題：只有大規(guī)模算力才能救AI？強(qiáng)化學(xué)習(xí)之父 vs 牛津教授掀起隔空論戰(zhàn)

文章出處：【微信號：worldofai，微信公眾號：worldofai】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

搜索歷史

70年來，人們在AI領(lǐng)域“一直連續(xù)犯著同樣的錯(cuò)誤”

苦澀的教訓(xùn)

“甜蜜的一課”

評論