人工智能機器人能不能讓自己學習成為比愛因斯坦更牛的“科學家”?有人說克服AI的局限性是建立“計算機科學與生物學之間的橋梁”。
科技評論網站日前發表文章,介紹了深度學習的發展趨勢及其局限。雖然深度學習已經是當前的一股熱潮,也取得了不少成果,但業界人士指出,目前的深度學習就像是“物理學出現之前的工程學”。以下為原文摘要:
人工智能(AI)領域的每一個進步,都有賴于30年前的一個突破。要保持AI進步的節奏,就需要突破這個領域的一些重大局限。
AI領域的愛因斯坦
矢量研究所(Vector Institute)位于加拿大多倫多的市中心,將于今年秋天開業,它旨在成為全球AI中心舞臺。美國和加拿大公司(比如谷歌(微博)、Uber和Nvidia)將在這個研究所贊助商業化AI技術的努力。
資金的涌入比該中心的聯合創始人喬丹o雅各布斯(Jordan Jacobs)設想的更快。該中心另外兩位聯合創始人對多倫多地區的公司進行了調查,發現該地區對AI專家的需求,是加拿大每年培養的專家人數的10倍。全球正在興起一股深度學習的熱潮,而這個研究所希望站在這股潮流中心——聚焦于這種技術,傳授它,改進它,并且應用它。數據中心正在建設中,初創公司紛至沓來,學生們正在入場。
而“深度學習之父”喬弗里o辛頓(Geoffrey Hinton)也住在多倫多。雅各布斯說:“再過30年,我們回頭來看,就會說辛頓是AI和深度學習領域的愛因斯坦?!?/p>
辛頓的弟子們在蘋果、Facebook和OpenAI主管AI實驗室,辛頓自己是谷歌大腦(Google Brain) AI團隊的首席科學家。事實上,AI的最近十年來的幾乎每一個成就——翻譯、語音識別、圖像識別和游戲玩法都和辛頓奠定的基礎分不開。
深入學習的主要理念其實在30年前就已經提出。辛頓與同事戴維o羅姆哈特(David Rumelhart)、羅蘭德o威廉姆斯(Ronald Williams)在1986年發表了一篇突破性的文章,詳細闡述了一種稱為 “反向傳播”的技術。用普林斯頓大學的計算心理學家喬o科恩(Jon Cohen)的話來說,這種技術是“所有深度學習的基礎”。
這篇1980年代中期的文章介紹了如何訓練多層次神經網絡。它為近十年來AI領域的發展進步奠定了基礎。
深度學習就是反向傳播
如今從某種角度上說,AI就是深度學習,而深度學習就是反向傳播。你可能感到不可思議,一個技術怎么蟄伏了這么長時間,然后突然出現了爆發式的崛起。一個觀點是:也許我們現在并不是處在一場革命的開始階段,而是在進入它的尾聲。
辛頓來自英國,曾在匹茲堡的卡內基梅隆大學工作,1980年代搬到了多倫多。他喜歡這座城市的氛圍。
辛頓說,他最近在一個項目上取得了重大突破,“找到了一個非常好的初級工程師,跟我一起工作,”這個女工程師名叫薩拉o薩福,是伊朗人,她在美國申請工作簽證被拒絕了。 谷歌在多倫多的辦公室接受了她。
在1980年代,辛頓已經是神經網絡專家。神經網絡是一個大大簡化的大腦神經元和突觸網絡模型。雖然最早的神經網絡“感知器”(Perceptron)在1950年代就開始開發,也被譽為邁向人機智能的第一步,但是到了80年代,業界堅定地認為神經網絡是AI研究的死胡同。
1969年,麻省理工學院的Marvin Minsky和Seymour Papert在一本名為《感知器》的書中,用數學證明了這樣的網絡只能執行最基本的功能。這種網絡只有兩層神經元,一個輸入層和一個輸出層。如果一個網絡在輸入和輸出神經元之間有更多的層,那么它在理論上可以解決很多不同的問題,只是沒有人知道如何訓練它們,所以在實踐中,這些神經網絡是沒用的。除了辛頓等寥寥幾個人之外,《感知器》使得大多數人都完全放棄了神經網絡。
1986年,辛頓取得突破,顯示反向傳播可以訓練一個深層神經網絡(超過兩三層的神經網絡)。但是又花了26年時間,計算能力才發展到了可以好好利用這個突破的程度。辛頓和他的兩個學生的2012年發表論文,顯示反向傳播訓練的深層神經網絡在圖像識別中擊敗了最先進的系統。 “深度學習”從此成為一股熱潮。在外界看來,AI似乎是在一夜之間蓬勃發展起來的。但對于辛頓來說,這卻是一個遲來的爆發。
神經網絡的原理
神經網絡通常被描述成一個多層三明治,層層疊疊。這些層里包含著人造神經元,指的是微小的計算單位,它可以受到激發 (就像真正的神經元會被激發那樣),然后將興奮度傳遞給它所連接的其他神經元。神經元的興奮度由數字來代表,比如0.13或32.39。另外,在每兩個神經元之間的連接上,還有一個關鍵數字,決定了多少興奮度可以從一個神經元傳遞到另一個。這個數字是在模擬大腦神經元之間突觸的給力程度。當這個數字比較高時,就意味著兩個神經元之間的連接更強,可以把更多的興奮度傳遞給對方。
深層神經網絡最成功的應用之一就是在圖像識別中,該團隊開發了一個程序,可以判斷圖片中是否有熱狗。在十年前,這樣的程序是不可能實現的。開發這種程序的第一步是找到一張照片。為了簡單起見,你可以使用一張黑白圖像,100像素寬,100像素高。你把這張圖像輸入到神經網絡——也就是給輸入層中每個模擬神經元設置興奮度,使之和每個像素的亮度吻合。這個多層三明治的底層就是10000個神經元(100x100),代表圖像中每個像素的亮度。
然后,你將這一層神經元連接到上面的另一層神經元層(有幾千個神經元),再繼續連一層神經元層(也有幾千個神經元),如此這般。最后,在這個三明治的最上層是輸出層,它只有兩個神經元 , 一個代表“有熱狗”,另一個代表“沒有熱狗”。其理念就是讓神經網絡學會只有當圖片里有熱狗的時候,才會激發“有熱狗”的神經元,只有在圖片里沒有熱狗的時候,才會激發“沒有熱狗”的神經元。反向傳播就是做到這一點的方法。
如何使用反向傳播技術
反向傳播本身非常簡單,盡管它在有大量數據可用的情況下效果最好。這就是為什么大數據在AI中如此重要的原因——以及為什么Facebook和谷歌如此渴望數據的原因。
在訓練神經網絡的時候,你需要使用數以百萬計的圖片,一些有熱狗,一些沒有。而訣竅就是那些有熱狗的圖片被標記為有熱狗。在一個初始神經網絡中,神經元之間的連接權重(表示每個連接傳遞的興奮度的多少)可能是隨機數,就好像是大腦的突觸還沒有調整好。 反向傳播的目標是改變這些權重,讓神經網絡可以獲得很好的效果:當你將熱狗的圖片輸入到最低層時,最頂層的“有熱狗”神經元最終會變得興奮起來。
假設你選取的第一幅訓練圖片里是一架鋼琴。你將這個100x100圖像中的像素強度轉換為10000個數字,正好分給網絡底層中的10000個神經元。然后興奮度根據相鄰神經元層之間的連接權重在這個網絡上過濾,到達最后一層判斷圖片中是否有熱狗的兩個神經元。由于圖片是鋼琴,在理想情況下,“有熱狗”神經元應該得出一個0,而“沒有熱狗”神經元應該得出很高的數字。但是我們假設這個神經網絡效果不好,對這張照片得出了錯誤結論。這時你就使用反向傳播技術,來重新調整網絡中每個連接的權重,以便修正錯誤。
它的工作原理是從最后兩個神經元開始,弄清楚它們錯得多厲害:興奮度的數字應該是多少,實際上是多少,差別有多大?當這樣做的時候,你要檢查到達這些神經元(以及下一層的那些神經元)的每個連接是什么,并弄清楚它們對錯誤的貢獻有多大。你一直這樣分析直到第一層,也就是網絡的最底層。這時候,你就知道每個單獨的連接對整個錯誤的貢獻是多少了,最后,你可以按照在最大程度上減少整體錯誤的大方向來修改每個權重。這個技術被稱為“反向傳播”,因為你是從輸出開始,反方向對錯誤進行分析的。
神經網絡的神奇和愚蠢
奇妙的是,當你有成百上千萬,甚至數以十億計的圖像,再按照這個方式操作的時候,神經網絡就會變得非常擅長于識別圖像中是否有熱狗。更奇妙的是,圖像識別網絡中的各個層開始能夠用和人類視覺系統相同的方式來“查看”圖像。也就是說,第一層可能會檢測邊緣——當有邊緣時,它的神經元就被激發,當沒有邊緣時,則不會激發;上面一層可能會檢測到一組邊緣,比如檢測出一個角;然后再上面的層就可能開始看到形狀;再上面的層可能會開始識別出“開了口的面包”或“沒開口的面包”這樣的東西。換句話說,程序員不需要主動地這么編程,這個神經網絡就會自己形成一個等級化的層次。
需要記得的是:盡管這些“深度學習”系統有時候看起來很聰明,但它們仍然很愚蠢。如果有一張圖片顯示一堆甜甜圈放在桌子上,而程序可以自動地將其標示為“堆在桌子上的一堆甜甜圈”的時候,你可能覺得這個程序很聰明。但是當同一個程序看到一個女孩刷牙的照片,會將其標識為“男孩拿著棒球棒”,這時你就會發現,它對世界缺乏理解。
神經網絡只是無意識的模糊模式識別器,你可以將它們集成到幾乎所有類型的軟件中。但是 它們蘊含的智能很有限,而且容易被欺騙。如果你更改單個像素,一個識別圖像的深層神經網絡可能就會完全傻掉。我們在發現深度學習的更多運用方法的同時,也在頻繁發現它的局限性。自動駕駛的汽車可能無法應對以前從未見過的路況。機器也無法解析需要運用常識才能理解的句子。
從某種程度上說,深度學習模仿了人類大腦中發生的事情,但模仿的程度非常淺顯 —— 這也許解釋了為什么它的智力有時看起來很有限。事實上,反向傳播并不是通過深入探索大腦,解讀思想本身來解密思想的。它的基礎實際上是條件反射實驗中動物如何使用試錯法的學習模式。它的很多巨大飛躍并沒有納入神經科學的一些新洞見,而是多年來在數學上和工程上積累的技術改進。我們對智能的了解,相對于我們尚不了解的部分來說,只是滄海一粟。
“物理學出現之前的工程學”
多倫多大學的助理教授戴維o杜文多(David Duvenaud)說,目前深度學習就像是“物理學出現之前的工程學”。 他是這么解釋的:“有人寫了一篇文章,說‘我造好了這座橋!’另一個人發了論文:‘我造了這座橋,它倒下了——然后我添加了支柱,它就立起來了?!谑侵泳统闪舜鬅衢T。有人想到了使用橋拱,‘橋拱很棒!’但是直到有了物理學之后,你才明白怎么造橋能不倒,為什么。”他說,直到最近,人工智能界才開始走入這個實際了解它的階段。
辛頓認為,克服AI的局限性是建立“計算機科學與生物學之間的橋梁”。在這種觀點下,反向傳播是一種“生物啟發的計算”的勝利。它的靈感不是來自工程學,而是心理學。現在,辛頓正探索一個新的方法。
現在的神經網絡是由巨大的平面層組成的,但是在人類新皮層中,真正的神經元不僅僅是水平構成層次,而且也是垂直排列成柱狀的。 辛頓認為,他知道這些柱狀有什么用——比如即使我們的視角改變,也能識別出對象——所以他正在構建類似的“膠囊” ,來測試這個理論。到目前為止,膠囊還沒有大大提高神經網絡的表現。但是,他30年前提出的反向傳播也是直到不久前才顯示出驚人效果的。
“它不奏效可能只是暫時的?!?他在談到膠囊理論時說。
評論