玄幻小说改编的电视剧,欢乐颂小说在线阅读,欢乐颂第三季

在昨天舉行的2018京東人工智能創(chuàng)新峰會(huì)上，南京大學(xué)計(jì)算機(jī)系主任、人工智能學(xué)院院長(zhǎng)周志華教授進(jìn)行了題為《關(guān)于深度學(xué)習(xí)的思考》的主題演講。周志華教授提出，人工智能時(shí)代最缺的就是人才，因?yàn)閷?duì)這個(gè)行業(yè)來(lái)說，你有多好的人才，才可能有多好的人工智能。

昨天，2018京東人工智能創(chuàng)新峰會(huì)舉行，京東集團(tuán)副總裁、AI 平臺(tái)與研究部負(fù)責(zé)人周伯文揭開了京東技術(shù)布局下的 AI 戰(zhàn)略全景圖。這個(gè)全景圖概括起來(lái)說就是“三大主體、七大應(yīng)用場(chǎng)景和五個(gè)人工智能產(chǎn)業(yè)化的布局方向”，即：以 AI 開放平臺(tái) 、AI 基礎(chǔ)研究、AI 商業(yè)創(chuàng)新三個(gè)主體，通過產(chǎn)學(xué)研相結(jié)合，高端人才培養(yǎng)，以及核心人才引進(jìn)打造科技能力，將 AI 用于金融科技、智慧物流、智能消費(fèi)、智能供應(yīng)、對(duì)外賦能。在峰會(huì)上，京東AI開放平臺(tái)NeuHub正式發(fā)布，“JD Dialog Challenge” 全球首屆任務(wù)導(dǎo)向型多輪對(duì)話系統(tǒng)大獎(jiǎng)賽正式啟動(dòng)。

會(huì)上，南京大學(xué)計(jì)算機(jī)系主任、人工智能學(xué)院院長(zhǎng)周志華教授進(jìn)行了題為《關(guān)于深度學(xué)習(xí)的思考》的主題演講。周志華教授從深度學(xué)習(xí)的理論基礎(chǔ)說起，從模型復(fù)雜度的角度探討了“深度神經(jīng)網(wǎng)絡(luò)為什么深”的問題，提出深度學(xué)習(xí)在有很多成功應(yīng)用的同時(shí)，也存在調(diào)參困難、可重復(fù)性差等問題，在很多任務(wù)上并不是最好的選擇。因此，探索深度神經(jīng)網(wǎng)絡(luò)之外的模型是很重要的挑戰(zhàn)。

周志華教授最后提到人工智能產(chǎn)業(yè)發(fā)展的看法，他說，“人工智能時(shí)代最缺的就是人才。因?yàn)閷?duì)這個(gè)行業(yè)來(lái)說，你有多好的人才，才可能有多好的人工智能。”近日，新智元報(bào)道周志華教授出任京東集團(tuán)人工智能研究院學(xué)術(shù)委員會(huì)委員，同時(shí)京東集團(tuán)已啟動(dòng)在南京建立京東人工智能研究院南京分院，周志華教授將擔(dān)任該分院學(xué)術(shù)總顧問。南京大學(xué)將在AI人才培養(yǎng)等方面和京東展開密切合作。

以下是周志華教授的演講內(nèi)容：

周志華：

首先很高興今天來(lái)參加京東的活動(dòng)，各位可能最近都聽說我們南京大學(xué)成立了人工智能學(xué)院，這是中國(guó)的 C9 高校的第一個(gè)人工智能學(xué)院。我們和京東會(huì)在科學(xué)研究和人才培養(yǎng)等方面開展非常深入的合作，具體的合作內(nèi)容可能過一段時(shí)間會(huì)陸續(xù)地告訴大家。

感謝周伯文博士的邀請(qǐng)。來(lái)之前我問他今天說點(diǎn)什么好，他告訴我在座的有不少技術(shù)人士，建議我談?wù)勱P(guān)于一些前沿學(xué)術(shù)問題的思考，所以今天我就跟大家談一談我們關(guān)于深度學(xué)習(xí)的一點(diǎn)點(diǎn)非常粗淺的看法，僅供大家來(lái)批評(píng)，一起來(lái)討論。我們都知道直接掀起人工智能熱潮的最重要的技術(shù)之一，就是深度學(xué)習(xí)技術(shù)。

今天，其實(shí)深度學(xué)習(xí)已經(jīng)有各種各樣的應(yīng)用，到處都是它，不管圖像也好，視頻也好，聲音自然語(yǔ)言處理等等。那么我們問一個(gè)問題，什么是深度學(xué)習(xí)？

深度學(xué)習(xí)的理論基礎(chǔ)尚不清楚

我想大多數(shù)人的答案，就是深度學(xué)習(xí)差不多就等于深度神經(jīng)網(wǎng)絡(luò)。有一個(gè)非常著名的學(xué)會(huì)叫SIAM，是國(guó)際工業(yè)與應(yīng)用數(shù)學(xué)學(xué)會(huì)，他們有一個(gè)旗艦的報(bào)紙叫SIAM news。在去年的 6 月份，這個(gè)報(bào)紙的頭版上就有這么一篇文章，直接就說了這么一句話，說深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中使用深度神經(jīng)網(wǎng)絡(luò)的的子領(lǐng)域。

所以如果我們要談深度學(xué)習(xí)的話，是繞不開深度神經(jīng)網(wǎng)絡(luò)的。首先我們必須從神經(jīng)網(wǎng)絡(luò)說起。神經(jīng)網(wǎng)絡(luò)其實(shí)并不是一個(gè)新生事物，神經(jīng)網(wǎng)絡(luò)可以說在人工智能領(lǐng)域已經(jīng)研究了超過半個(gè)世紀(jì)。但是以往的話，一般我們會(huì)用這樣的神經(jīng)網(wǎng)絡(luò)，就是中間有一個(gè)隱層，或者有兩個(gè)隱層。在這樣的神經(jīng)網(wǎng)絡(luò)里面，它的每一個(gè)單元是個(gè)非常簡(jiǎn)單的計(jì)算模型。我們收到一些輸入，這些輸入通過一些連接放大，它就是這么一個(gè)非常簡(jiǎn)單的公式。所謂的神經(jīng)網(wǎng)絡(luò)，是很多這樣的公式經(jīng)過嵌套迭代得到的一個(gè)系統(tǒng)。那么今天當(dāng)我們說用深度神經(jīng)網(wǎng)絡(luò)的時(shí)候，其實(shí)我們指的是什么？簡(jiǎn)單來(lái)說，就是我們用的層數(shù)會(huì)很深很深，很多層。在 2012 年深度學(xué)習(xí)剛剛開始受到大家重視的時(shí)候，那時(shí)候 ImageNet競(jìng)賽的冠軍是用了8層的神經(jīng)網(wǎng)絡(luò)。那么到了 2015 年是用了 152 層，到了 2016 年是 1207層。這是個(gè)非常龐大非常巨大的系統(tǒng)，把這么一個(gè)系統(tǒng)訓(xùn)練出來(lái)，難度是非常大的。

有一點(diǎn)非常好的消息。神經(jīng)網(wǎng)絡(luò)里面的計(jì)算單元，最重要的激活函數(shù)是連續(xù)的、可微的。比如說我們?cè)谝酝Ｓ眠@樣的sigmoid函數(shù)，它是連續(xù)可微的，現(xiàn)在大家常用的ReLu函數(shù)或者它的變體，也是這樣。這使得我們可以容易地進(jìn)行梯度計(jì)算，這樣就可以很容易用著名的BP算法來(lái)訓(xùn)練。通過這樣的算法，我們的神經(jīng)網(wǎng)絡(luò)已經(jīng)取得了非常多的勝利。

但是實(shí)際上在學(xué)術(shù)界大家一直沒有想清楚一件事情，就是我們?yōu)槭裁匆眠@么深的模型？今天深度學(xué)習(xí)已經(jīng)取得了很多的成功，但是有一個(gè)很大的問題，就是理論基礎(chǔ)不清楚。我們理論上還說不清楚它到底是怎么做，為什么會(huì)成功，里面的關(guān)鍵是什么？如果我們要做理論分析的話，我們先要有一點(diǎn)直覺，知道它到底為什么有用？這樣才好著手去分析。但現(xiàn)在其實(shí)我們根本就不知道該從什么角度去看它。

深度學(xué)習(xí)為什么深？模型復(fù)雜度的角度

關(guān)于深度神經(jīng)網(wǎng)絡(luò)為什么能深呢？到今天為止，學(xué)術(shù)界都還沒有統(tǒng)一的看法。有很多的論述。我在這里面跟大家講一個(gè)我們前段時(shí)間給出的一個(gè)論述。這個(gè)論述其實(shí)主要是從模型的復(fù)雜度的角度來(lái)討論。

我們知道一個(gè)機(jī)器學(xué)習(xí)模型，它的復(fù)雜度實(shí)際上和它的容量有關(guān)，而容量又跟它的學(xué)習(xí)能力有關(guān)。所以就是說學(xué)習(xí)能力和復(fù)雜度是有關(guān)的。機(jī)器學(xué)習(xí)界早就知道，如果我們能夠增強(qiáng)一個(gè)學(xué)習(xí)模型的復(fù)雜度，那么它的學(xué)習(xí)能力能夠提升。那怎么樣去提高復(fù)雜度，對(duì)神經(jīng)網(wǎng)絡(luò)這樣的模型來(lái)說，有兩條很明顯的途徑。一條是我們把模型變深，一條是把它變寬。如果從提升復(fù)雜度的角度，那么變深是會(huì)更有效。當(dāng)你變寬的時(shí)候，你只不過是增加了一些計(jì)算單元，增加了函數(shù)的個(gè)數(shù)，在變深的時(shí)候不僅增加了個(gè)數(shù)，其實(shí)還增加了它的嵌入的程度。所以從這個(gè)角度來(lái)說，我們應(yīng)該嘗試去把它變深。

那大家可能就會(huì)問了，那既然要變深，那你們?cè)缇筒恢肋@件事了嗎？那么現(xiàn)在才開始做？這就涉及到另外一個(gè)問題，我們把機(jī)器學(xué)習(xí)的學(xué)習(xí)能力變強(qiáng)了，這其實(shí)未必是一件好事。因?yàn)闄C(jī)器學(xué)習(xí)一直在斗爭(zhēng)的一個(gè)問題，就是經(jīng)常會(huì)碰到過擬合（overfit）。這是一種什么樣的現(xiàn)象？你給我一個(gè)數(shù)據(jù)集，我做機(jī)器學(xué)習(xí)要把數(shù)據(jù)集里面的東西學(xué)出來(lái)，學(xué)出來(lái)之后，我希望學(xué)到的是一般規(guī)律，能夠用來(lái)預(yù)測(cè)未來(lái)的事情。但是有時(shí)候呢我可能把這個(gè)數(shù)據(jù)本身的一些特性學(xué)出來(lái)了，而不是一般規(guī)律。錯(cuò)誤地把它當(dāng)成一般規(guī)律來(lái)用的時(shí)候，會(huì)犯巨大的錯(cuò)誤。這種現(xiàn)象就是所謂的過擬合。

那為什么我們會(huì)把這個(gè)數(shù)據(jù)本身的一些特性學(xué)出來(lái)呢？其實(shí)大家都很清楚，就是因?yàn)槲覀兊哪Ｐ蛯W(xué)習(xí)能力太強(qiáng)。當(dāng)你的能力非常非常強(qiáng)的時(shí)候，你可能就把一些特性學(xué)出來(lái)，當(dāng)成一般規(guī)律。所以我們以往通常不太愿意用太復(fù)雜的模型。

那現(xiàn)在我們?yōu)槭裁纯梢杂眠@樣的模型？有很多因素。第一個(gè)因素是現(xiàn)在我們有很大的數(shù)據(jù)。比如說我手上如果只有 3000 個(gè)數(shù)據(jù)，那我學(xué)出來(lái)的特性一般不太可能是一般規(guī)律。但是如果有 3000 萬(wàn)，3000 萬(wàn)萬(wàn)的數(shù)據(jù)，那這個(gè)數(shù)據(jù)里面的特性可能本身就已經(jīng)是一般規(guī)律。所以使用大的數(shù)據(jù)是緩解過擬合的一個(gè)關(guān)鍵的途徑。第二，今天我們有了很多很強(qiáng)大的計(jì)算設(shè)備，這使得我們能夠訓(xùn)練出這樣的模型。第三，通過我們這個(gè)領(lǐng)域很多學(xué)者的努力，有了大量的訓(xùn)練這樣復(fù)雜模型的技巧、算法，這使得我們使用復(fù)雜模型成為可能。總結(jié)一下就是：第一我們有了更大的數(shù)據(jù)；第二我們有強(qiáng)力的計(jì)算設(shè)備；第三我們有很多有效的訓(xùn)練技巧。這導(dǎo)致我們可以用高復(fù)雜度的模型，而深度神經(jīng)網(wǎng)絡(luò)恰恰就是一種很便于實(shí)現(xiàn)的高復(fù)雜度模型。

所以用這么一套理論，好像是能夠解釋我們現(xiàn)在為什么能夠用深度神經(jīng)網(wǎng)絡(luò)，為什么深度神經(jīng)網(wǎng)絡(luò)能成功？就是因?yàn)閺?fù)雜度大。在一年多之前，我們把這個(gè)解釋說出來(lái)的時(shí)候，其實(shí)國(guó)內(nèi)外很多同行也還很贊同，覺得還蠻有道理的。但是其實(shí)我自己一直對(duì)這個(gè)解釋不是特別的滿意，因?yàn)橐粋€(gè)潛在的問題我們一直沒有回答。

深度神經(jīng)網(wǎng)絡(luò)最重要的是表示學(xué)習(xí)的能力

如果從復(fù)雜度這個(gè)角度去解釋的話，我們就沒法說清楚為什么扁平的（flat），或者寬的網(wǎng)絡(luò)做不到深度神經(jīng)網(wǎng)絡(luò)的性能？實(shí)際上我們把網(wǎng)絡(luò)變寬，雖然它的效率不是那么高，但是它同樣也能起到增加復(fù)雜度的能力。

實(shí)際上只要有一個(gè)隱層，加無(wú)限多的神經(jīng)元進(jìn)去，它的復(fù)雜度也會(huì)變得很大。但是這樣的模型在應(yīng)用里面怎么試，我們都發(fā)現(xiàn)它不如深度神經(jīng)網(wǎng)絡(luò)好。所以從復(fù)雜度的角度可能很難回答這個(gè)問題，我們需要一點(diǎn)更深入的思考。所以我們要問這么一個(gè)問題：深度神經(jīng)網(wǎng)絡(luò)里面最本質(zhì)的東西到底是什么？

今天我們的回答是，表示學(xué)習(xí)的能力。以往我們用機(jī)器學(xué)習(xí)解決一個(gè)問題的時(shí)候，首先我們拿到一個(gè)數(shù)據(jù)，比如說這個(gè)數(shù)據(jù)對(duì)象是個(gè)圖像，然后我們就用很多特征把它描述出來(lái)，比如說顏色、紋理等等。這些特征都是我們?nèi)祟悓＜彝ㄟ^手工來(lái)設(shè)計(jì)的，表達(dá)出來(lái)之后我們?cè)偃ミM(jìn)行學(xué)習(xí)。而今天我們有了深度學(xué)習(xí)之后，現(xiàn)在不再需要手工去設(shè)計(jì)特征了。你把數(shù)據(jù)從一端扔進(jìn)去，模型從另外一端就出來(lái)了，中間所有的特征完全可以通過學(xué)習(xí)自己來(lái)解決。所以這就是我們所謂的特征學(xué)習(xí)，或者說表示學(xué)習(xí)。這和以往的機(jī)器學(xué)習(xí)技術(shù)相比可以說是一個(gè)很大的進(jìn)步。我們不再需要依賴人類專家去設(shè)計(jì)特征了。

有些朋友經(jīng)常說的一個(gè)東西是端到端學(xué)習(xí)。對(duì)這個(gè)其實(shí)我們要從兩方面看，一方面，當(dāng)我們把特征學(xué)習(xí)和分類器的學(xué)習(xí)聯(lián)合起來(lái)考慮的時(shí)候，可以達(dá)到一個(gè)聯(lián)合優(yōu)化的作用，這是好的方面。但是另外一方面，如果這里面發(fā)生什么我們不清楚，這樣的端到端學(xué)習(xí)就不一定真的是好的。因?yàn)槔锩婧芸赡艿谝粋€(gè)部分在往東，第二個(gè)部分在往西，合起來(lái)看，好像它往東走的更多一點(diǎn)，其實(shí)內(nèi)部已經(jīng)有些東西在抵消了。所以實(shí)際上機(jī)器學(xué)習(xí)里面早就有端到端學(xué)習(xí)，比如說我們做特征選擇，可能大家知道有一類基于wrapper的方法，它就是端到端的學(xué)習(xí)，但這類方法是不是比別的特征選擇方法一定強(qiáng)呢？不一定。所以這不是最重要的。

真正重要的還是特征學(xué)習(xí)，或者表示學(xué)習(xí)。那如果我們?cè)賳栂乱粋€(gè)問題，表示學(xué)習(xí)最關(guān)鍵的又是什么呢？我們現(xiàn)在有這么一個(gè)答案，就是逐層的處理。我引述最近非常流行的一本書，《深度學(xué)習(xí)》這本書里面的一個(gè)圖，當(dāng)我們拿到一個(gè)圖像的時(shí)候，我們?nèi)绻焉窠?jīng)網(wǎng)絡(luò)看作很多層，首先它在最底層，好像我們看到的是一些像素這樣的東西。當(dāng)我們一層一層往上的時(shí)候，慢慢的可能有邊緣，再網(wǎng)上可能有輪廓，甚至對(duì)象的部件等等。當(dāng)然這實(shí)際上只是個(gè)示意圖，在真正的神經(jīng)網(wǎng)絡(luò)模型里面不見得會(huì)有這么清楚的分層。但是總體上當(dāng)我們逐漸往上的時(shí)候，它確實(shí)是不斷在對(duì)對(duì)象進(jìn)行抽象。我們現(xiàn)在認(rèn)為這好像是深度學(xué)習(xí)為什么成功的關(guān)鍵因素之一。因?yàn)楸馄缴窠?jīng)網(wǎng)絡(luò)能做很多深層神經(jīng)網(wǎng)絡(luò)能做的事，但是有一點(diǎn)它是做不到的。當(dāng)它是扁平的時(shí)候，它就沒有進(jìn)行這樣的一個(gè)深度的加工。所以深度的逐層抽象這件事情，可能是很關(guān)鍵的。

大家可能就會(huì)問，“逐層地處理”在機(jī)器學(xué)習(xí)里面也不是新東西。比如說決策樹就是一種逐層處理，這是非常典型的。決策樹模型已經(jīng)有五六十年的歷史了，但是它為什么做不到深度神經(jīng)網(wǎng)絡(luò)這么好呢？我想答案是這樣。首先它的復(fù)雜度不夠，決策數(shù)的深度，如果我們只考慮離散特征的話，它最深的深度不會(huì)超過特征的個(gè)數(shù)，所以它的模型復(fù)雜度是有限的。第二，整個(gè)決策樹的學(xué)習(xí)過程中，它內(nèi)部沒有進(jìn)行特征的變換，始終是在一個(gè)特征空間里面進(jìn)行的。這可能也是它的一個(gè)問題。大家如果對(duì)高級(jí)點(diǎn)的機(jī)器學(xué)習(xí)模型了解，你可能會(huì)問，那boosting呢？比如說現(xiàn)在很多獲勝的模型，xgboost 等等都屬于這個(gè)boosting的一類，它也是一層一層的往下走。你說他為什么沒有取得像深度神經(jīng)網(wǎng)絡(luò)這樣的成功呢？我想其實(shí)問題是差不多的，首先它的復(fù)雜度還不夠。第二可能是更關(guān)鍵的一點(diǎn)，它始終是在原始空間里面做事情，所有的這些學(xué)習(xí)器都是在原始特征空間，中間沒有進(jìn)行任何的特征變化。所以現(xiàn)在我們的看法是，深度神經(jīng)網(wǎng)絡(luò)到底為什么成功？或者成功的關(guān)鍵原因是什么？我想第一是逐層地處理，第二我們要有一個(gè)內(nèi)部的特征變換。

深度學(xué)習(xí)成功的三個(gè)因素

而當(dāng)我們考慮到這兩件事情的時(shí)候，我們就會(huì)發(fā)現(xiàn)，其實(shí)深度模型是一個(gè)非常自然的選擇。有了這樣的模型，我們很容易就可以做上面兩件事。但是當(dāng)我們選擇用這么一個(gè)深度模型的時(shí)候，我們就會(huì)有很多問題，它容易o(hù)verfit，所以我們要用大數(shù)據(jù)；它很難訓(xùn)練，我們要有很多訓(xùn)練的trick；這個(gè)系統(tǒng)的計(jì)算開銷非常大，所以我們要有非常強(qiáng)有力的計(jì)算的設(shè)備，比如 GPU 等等。

實(shí)際上所有這些東西是因?yàn)槲覀冞x用了深度模型之后產(chǎn)生的一個(gè)結(jié)果，它們不是我們用深度學(xué)習(xí)的原因。所以這和以往的思考不太一樣，以往我們認(rèn)為有了這些東西，導(dǎo)致我們用深度模型。其實(shí)現(xiàn)在我們覺得這個(gè)因果關(guān)系恰恰是反過來(lái)，因?yàn)槲覀円盟?，所以我們才?huì)考慮上面這些東西。另外還有一點(diǎn)我們要注意的，當(dāng)我們有很大的訓(xùn)練數(shù)據(jù)的時(shí)候，這就要求我們必須要有很復(fù)雜的模型。否則假設(shè)我們用一個(gè)線性模型的話，給你 2000 萬(wàn)樣本還是 2 億的樣本，其實(shí)對(duì)它沒有太大區(qū)別。它已經(jīng)學(xué)不進(jìn)去了。而我們有了充分的復(fù)雜度，恰恰它又給我們使用深度模型加了一分。所以正是因?yàn)檫@幾個(gè)原因，我們才覺得這是深度模型里面最關(guān)鍵的事情。

這是我們現(xiàn)在的一個(gè)認(rèn)識(shí)：第一，我們要有逐層的處理；第二，我們要有特征的內(nèi)部變換；第三，我們要有足夠的模型復(fù)雜度。這三件事情是我們認(rèn)為深度神經(jīng)網(wǎng)絡(luò)為什么能夠成功的比較關(guān)鍵的原因?；蛘哒f，這是我們給出的一個(gè)猜測(cè)。

深度學(xué)習(xí)存在的問題

那如果滿足這幾個(gè)條件，我們其實(shí)馬上就可以想到，那我不一定要用神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)可能只是我可以選擇的很多方案之一，我只要能夠同時(shí)做到這三件事，那我可能用別的模型做也可以，并不是一定只能是用深度神經(jīng)網(wǎng)絡(luò)。

第一，凡是用過深度神經(jīng)網(wǎng)絡(luò)的人都會(huì)知道，你要花大量的精力來(lái)調(diào)它的參數(shù)，因?yàn)檫@是個(gè)巨大的系統(tǒng)。那這會(huì)帶來(lái)很多問題。首先我們調(diào)參數(shù)的經(jīng)驗(yàn)其實(shí)是很難共享的。有的朋友可能說，你看我在第一個(gè)圖像數(shù)據(jù)集上調(diào)參數(shù)的經(jīng)驗(yàn)，當(dāng)我用第二個(gè)圖像數(shù)據(jù)集的時(shí)候，這個(gè)經(jīng)驗(yàn)肯定是可以重用一部分。但是我們有沒有想過，比如說我們?cè)趫D像上面做了一個(gè)很大的深度神經(jīng)網(wǎng)絡(luò)，這時(shí)候如果要去做語(yǔ)音的時(shí)候，其實(shí)在圖像上面調(diào)參數(shù)的經(jīng)驗(yàn)，在語(yǔ)音問題上基本上不太有借鑒作用。所以當(dāng)我們跨任務(wù)的時(shí)候，這些經(jīng)驗(yàn)可能就很難共享。

第二個(gè)問題，今天大家都非常關(guān)注我們做出來(lái)的結(jié)果的可重復(fù)性，不管是科學(xué)研究也好，技術(shù)發(fā)展也好，都希望這個(gè)結(jié)果可重復(fù)。而在整個(gè)機(jī)器學(xué)習(xí)領(lǐng)域，可以說深度學(xué)習(xí)的可重復(fù)性是最弱的。我們經(jīng)常會(huì)碰到這樣的情況，有一組研究人員發(fā)文章說報(bào)告了一個(gè)結(jié)果，而這個(gè)結(jié)果其他的研究人員很難重復(fù)。因?yàn)槟呐履阌猛瑯拥臄?shù)據(jù)，同樣的方法，只要超參數(shù)的設(shè)置不一樣，你的結(jié)果就不一樣。

還有很多問題，比如說我們?cè)谟蒙疃壬窠?jīng)網(wǎng)絡(luò)的時(shí)候，模型復(fù)雜度必須是事先指定的。因?yàn)槲覀冊(cè)谟?xùn)練這個(gè)模型之前，我們這個(gè)神經(jīng)網(wǎng)絡(luò)是什么樣就必須定了，然后我們才能用 BP算法等等去訓(xùn)練它。其實(shí)這會(huì)帶來(lái)很大的問題，因?yàn)槲覀冊(cè)跊]有解決這個(gè)任務(wù)之前，我們?cè)趺粗肋@個(gè)復(fù)雜度應(yīng)該有多大呢？所以實(shí)際上大家做的通常都是設(shè)更大的復(fù)雜度。

如果大家關(guān)注過去 3、4 年深度學(xué)習(xí)這個(gè)領(lǐng)域的進(jìn)展，你可以看到很多最前沿的工作在做的都是在有效的縮減網(wǎng)絡(luò)的復(fù)雜度。比如說 RestNet 這個(gè)網(wǎng)絡(luò)通過加了shortcuts，有效地使得復(fù)雜度變小。還有最近大家經(jīng)常用的一些模型壓縮，甚至權(quán)重的二值化，其實(shí)都是在把復(fù)雜度變小。實(shí)際上它是先用了一個(gè)過大的復(fù)雜度，然后我們?cè)侔阉迪聛?lái)。那么我們有沒有可能在一開始就讓這個(gè)模型的復(fù)雜度隨著數(shù)據(jù)而變化，這點(diǎn)對(duì)神經(jīng)網(wǎng)絡(luò)可能很困難，但是對(duì)別的模型是有可能的。

還有很多別的問題，比如說理論分析很困難，需要非常大的數(shù)據(jù)，黑箱模型等等。那么從另外一個(gè)方面，有人可能說你是做學(xué)術(shù)研究，你們要考慮這些事，我是做應(yīng)用的，什么模型我都不管，你只要能給我解決問題就好了。其實(shí)就算從這個(gè)角度來(lái)想，我們研究神經(jīng)網(wǎng)絡(luò)之外的模型也是很需要的。

雖然在今天深度神經(jīng)網(wǎng)絡(luò)已經(jīng)這么的流行，這么的成功，但是其實(shí)我們可以看到在很多的任務(wù)上，性能最好的不見得完全是深度神經(jīng)網(wǎng)絡(luò)。比如說如果大家經(jīng)常關(guān)心Kaggle上面的很多競(jìng)賽，它有各種各樣的真實(shí)問題，有買機(jī)票的，有訂旅館的，有做各種的商品推薦等等。我們?nèi)タ瓷厦娅@勝的模型，在很多任務(wù)上的勝利者并不是神經(jīng)網(wǎng)絡(luò)，它往往是像隨機(jī)森林，像xgboost等等這樣的模型。深度神經(jīng)網(wǎng)絡(luò)獲勝的任務(wù)，往往就是在圖像、視頻、聲音這幾類典型任務(wù)上。而在別的凡是涉及到混合建模、離散建模、符號(hào)建模這樣的任務(wù)上，其實(shí)它的性能可能比其他模型還要差一些。那么，有沒有可能做出合適的深度模型，在這些任務(wù)上得到更好的性能呢？

我們從學(xué)術(shù)的觀點(diǎn)來(lái)總結(jié)一下，今天我們談到的深度模型基本上都是深度神經(jīng)網(wǎng)絡(luò)。如果用術(shù)語(yǔ)來(lái)說的話，它是多層、可參數(shù)化的、可微分的非線性模塊所組成的模型，而這個(gè)模型可以用 BP算法來(lái)訓(xùn)練。

探索深度學(xué)習(xí)之外的方法：深度森林

那么這里面有兩個(gè)問題。第一，我們現(xiàn)實(shí)世界遇到的各種各樣的問題的性質(zhì)，并不是絕對(duì)都是可微的，或者用可微的模型能夠做最佳建模的。第二，過去幾十年里面，我們的機(jī)器學(xué)習(xí)界做了很多很多模型出來(lái)，這些都可以作為我們構(gòu)建一個(gè)系統(tǒng)的基石，而中間有相當(dāng)一部分模塊是不可微的。那么這樣的東西能不能用來(lái)構(gòu)建深度模型？能不能通過構(gòu)建深度模型之后得到更好的性能，能不能通過把它們變深之后，使得深度模型在今天還比不上隨機(jī)森林等等這些模型的任務(wù)上，能夠得到更好的結(jié)果呢？現(xiàn)在有這么一個(gè)很大的挑戰(zhàn)，這不光是學(xué)術(shù)上的，也是技術(shù)上的一個(gè)挑戰(zhàn)，就是我們能不能用不可微的模塊來(lái)構(gòu)建深度模型？

這個(gè)問題一旦得到了回答，我們同時(shí)就可以得到很多其他問題的答案。比如說深度模型是不是就是深度神經(jīng)網(wǎng)絡(luò)？我們能不能用不可微的模型把它做深，這個(gè)時(shí)候我們不能用BP算法來(lái)訓(xùn)練，那么同時(shí)我們能不能讓深度模型在更多的任務(wù)上獲勝？我們提出這個(gè)問題之后，在國(guó)際上也有一些學(xué)者提出了一些相似的看法?？赡艽蠹叶贾?，深度學(xué)習(xí)非常著名的領(lǐng)軍人物Geoffery Hinton教授，他也提出來(lái)說，希望深度學(xué)習(xí)以后能擺脫 BP 算法來(lái)做，他提出這件事比我們要晚一些。

我想這樣的問題是應(yīng)該是站在一個(gè)很前沿的角度上探索。剛才跟大家分析所得到的三個(gè)結(jié)論，第一我們要做逐層處理，第二我們要做特征的內(nèi)部變換，第三，我們希望得到一個(gè)充分的模型復(fù)雜度。我自己領(lǐng)導(dǎo)的研究組最近在這方面做了一些工作。我們最近提出了一個(gè)叫做Deep Forest（深度森林）的方法。這個(gè)方法是一個(gè)基于樹模型的方法，它主要是借用了集成學(xué)習(xí)里面的很多的想法。第二，在很多不同的任務(wù)上，它的模型得到的結(jié)果可以說和深度神經(jīng)網(wǎng)絡(luò)是高度接近的。除了一些大規(guī)模的圖像任務(wù)，這基本上是深度神經(jīng)網(wǎng)絡(luò)的殺手锏應(yīng)用，它在很多的其它任務(wù)上，特別是跨任務(wù)的表現(xiàn)非常好。我們可以用同樣一套參數(shù)，用不同的任務(wù)，性能都還不錯(cuò)，就不再需要逐任務(wù)的慢慢去調(diào)參數(shù)，同時(shí)它要調(diào)的超參數(shù)少很多，容易調(diào)的多。還有一個(gè)很重要的特性，它有自適應(yīng)的模型復(fù)雜度，可以根據(jù)數(shù)據(jù)的大小，自動(dòng)的來(lái)判定模型該長(zhǎng)到什么程度。

另外一方面，我們要看到，這實(shí)際上是在深度學(xué)習(xí)這個(gè)學(xué)科領(lǐng)域發(fā)展思路上一個(gè)全新的探索。所以今天雖然它已經(jīng)能夠解決一部分問題了，但是我們應(yīng)該可以看到它再往下發(fā)展下去，它的前景可能是今天我們還不太能夠完全預(yù)見到的。

我經(jīng)常說我們其實(shí)沒有什么真正的顛覆性的技術(shù)，所有的技術(shù)都是一步一步發(fā)展起來(lái)的。比方說現(xiàn)在深度神經(jīng)網(wǎng)絡(luò)里面最著名的CNN，從首次提出到ImageNet上獲勝是經(jīng)過了30年，從算法完全成形算起，到具備在工業(yè)界廣泛使用的能力也是經(jīng)過了20年，無(wú)數(shù)人的探索改進(jìn)。所以，今天的一些新探索，雖然已經(jīng)能夠解決一些問題，但更重要的是再長(zhǎng)遠(yuǎn)看，經(jīng)過很多進(jìn)一步努力之后，可能今天的一些探索能為未來(lái)的技術(shù)打下重要的基礎(chǔ)。

以前我們說深度學(xué)習(xí)是一個(gè)黑屋子，這個(gè)黑屋子里面有什么東西呢？大家都知道，有深度神經(jīng)網(wǎng)絡(luò)?，F(xiàn)在我們把這個(gè)屋子打開了一扇門，把深度森林放進(jìn)來(lái)了，那我想以后可能還有很多更多的東西?？赡苓@是從學(xué)科意義來(lái)看，這個(gè)工作更重要的價(jià)值。

最后我想談一談關(guān)于人工智能產(chǎn)業(yè)發(fā)展的一些看法，因?yàn)榇蠹叶贾牢覀兡暇┐髮W(xué)人工智能學(xué)院馬上要跟京東開展深入的在科學(xué)研究和人才培養(yǎng)方面的合作。關(guān)于人工智能產(chǎn)業(yè)的發(fā)展，我們要問一個(gè)問題，我們到底需要什么？大家說需要設(shè)備嗎？做人工智能的研究，不需要特殊機(jī)密的設(shè)備，你只要花錢，這些設(shè)備都能買得到。那么缺數(shù)據(jù)嗎？現(xiàn)在我們的數(shù)據(jù)收集、存儲(chǔ)、傳輸、處理的能力大幅度提升，到處都是數(shù)據(jù)。

真正缺的是什么？人工智能時(shí)代最缺的就是人才。因?yàn)閷?duì)這個(gè)行業(yè)來(lái)說，你有多好的人才，才可能有多好的人工智能。所以我們現(xiàn)在可以看到，全球是在爭(zhēng)搶人工智能人才。不光是中國(guó)，美國(guó)也是這樣。所以我們要成立人工智能學(xué)院，其實(shí)就有這樣的考慮。信息化之后，人類社會(huì)必然進(jìn)入智能化，可以說這是個(gè)不可逆轉(zhuǎn)、不可改變的一個(gè)趨勢(shì)。我們基于數(shù)據(jù)信息，為人提供智能輔助，讓人做事的時(shí)候更容易，那是我們所有人的愿望。蒸汽機(jī)的革命是把我們從體力勞動(dòng)里面解放出來(lái)。人工智能革命應(yīng)該是把我們從一些繁復(fù)性強(qiáng)的、簡(jiǎn)單智力勞動(dòng)中解放出來(lái)。

人工智能這個(gè)學(xué)科，它和其他的一些短期的投資風(fēng)口和短期的熱點(diǎn)不太一樣。它經(jīng)過 60 多年的發(fā)展，已經(jīng)有一個(gè)龐大的、真正的知識(shí)體系。而高水平的人工智能人才稀缺，這是一個(gè)世界性的問題。我們的很多企業(yè)現(xiàn)在都在重金挖人，但實(shí)際上挖人不能帶來(lái)增量。所以我覺得我們要從源頭做起，為國(guó)家、社會(huì)、產(chǎn)業(yè)的發(fā)展培養(yǎng)高水平的人工智能人才，所以在這個(gè)方面，我們感謝京東作為一個(gè)有社會(huì)責(zé)任感的企業(yè)，愿意在我這個(gè)學(xué)院旁邊專門建一個(gè)研究院，一起對(duì)源頭性的人工智能高水平人才培養(yǎng)合作開展新型探索。最后歡迎各界朋友以各種方式支持我們南京大學(xué)人工智能學(xué)院，謝謝！

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1806

文章
49014

瀏覽量
249448
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5561

瀏覽量
122794

原文標(biāo)題：周志華最新演講：深度學(xué)習(xí)為什么深？有多好的人才，才可能有多好的人工智能

文章出處：【微信號(hào)：AI_era，微信公眾號(hào)：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

搜索歷史

從模型復(fù)雜度的角度探討“深度神經(jīng)網(wǎng)絡(luò)為什么深”的問題

評(píng)論