91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

卷積學習與圖像識別的技術(shù)發(fā)展

新機器視覺 ? 來源:yxw ? 2019-06-11 09:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

自20世紀80年代興起的神經(jīng)網(wǎng)絡(luò)熱潮已經(jīng)退去,神經(jīng)網(wǎng)絡(luò)再次成為常規(guī)科學。托馬斯·庫恩(Thomas Kuhn)曾將科學革命之間的時間間隔描述為,科學家在一個已經(jīng)確定的范式或解釋框架內(nèi)進行理論推定、觀察和試驗的常規(guī)工作階段。1987 年,杰弗里·辛頓去了多倫多大學,并繼續(xù)著漸進式改進,雖然這些改進都沒有像曾經(jīng)的玻爾茲曼機那樣展現(xiàn)出魔力。辛頓在21 世紀頭十年成為加拿大高等研究院(Canadian Institute for Advanced Research,簡稱CIFAR)神經(jīng)計算和自適應感知項目(Neural Computation andAdaptive Perception,簡稱 NCAP)的帶頭人。該項目由來自加拿大和其他國家的約25 位研究人員組成,專注于解決機器學習的難題。我是由楊立昆擔任主席的NCAP 顧問委員會的成員,會在每年 NIPS 會議召開之前參加該項目的年會。神經(jīng)網(wǎng)絡(luò)的先驅(qū)們在緩慢而穩(wěn)定的過程中探索了機器學習的許多新策略。雖然他們的網(wǎng)絡(luò)有許多有價值的應用,但卻一直沒有滿足20 世紀 80 年代對該領(lǐng)域抱有的很高的期望。不過這并沒有動搖先驅(qū)者們的信念。回想起來,他們一直是在為飛躍性的突破奠定基礎(chǔ)。

機器學習的穩(wěn)步發(fā)展

NIPS 會議是 20 世紀 80 年代神經(jīng)網(wǎng)絡(luò)的孵化器,為其他可處理大型高維數(shù)據(jù)集的算法打開了大門。弗拉基米爾·瓦普尼克的支持向量機于1995 年引發(fā)了轟動,為 20 世紀 60 年代就被遺棄的感知器網(wǎng)絡(luò)開辟了一個新篇章。使支持向量機成為功能強大的分類器,并出現(xiàn)在每個神經(jīng)網(wǎng)絡(luò)工作者工具包中的,是“內(nèi)核技巧”(kernel trick),這是一種數(shù)學轉(zhuǎn)換,相當于將數(shù)據(jù)從其采樣空間重新映射到使其更容易被分離的超空間。托馬索·波吉奧開發(fā)了一種名為“HMAX”的分級網(wǎng)絡(luò),可以對有限數(shù)量的對象進行分類。這表明,網(wǎng)絡(luò)的性能會隨著其深度的增加而提高。

在21 世紀的頭幾年里,圖形模型被開發(fā)出來,并與被稱為“貝葉斯網(wǎng)絡(luò)”(Bayes networks)的豐富的概率模型相結(jié)合,后者是基于18 世紀英國數(shù)學家托馬斯·貝葉斯(Thomas Bayes)提出的一個定理,該定理允許使用新的證據(jù)來更新先前的信念。加州大學洛杉磯分校的朱迪亞·珀爾,在早些時候曾將基于貝葉斯分析的“信念網(wǎng)絡(luò)”(belief networks)引入人工智能,通過開發(fā)能夠利用數(shù)據(jù)在網(wǎng)絡(luò)中學習概率的方法,對貝葉斯分析進行了加強和擴展。這些網(wǎng)絡(luò)以及其他網(wǎng)絡(luò)的算法為機器學習研究人員打造出了強大的工具。

隨著計算機的處理能力繼續(xù)呈指數(shù)增長,訓練更大規(guī)模的網(wǎng)絡(luò)成為可能。大家曾普遍認為,具有更多隱藏單元、更寬的神經(jīng)網(wǎng)絡(luò),比具有更多層數(shù)、更深的網(wǎng)絡(luò)的效果更好,但是對于逐層訓練的網(wǎng)絡(luò)來說并非如此,并且誤差梯度的消失問題(the vanishing error gradientproblem)被發(fā)現(xiàn)減慢了輸入層附近的學習速度。然而,當這個問題最終被克服的時候,我們已經(jīng)可以對深度反向傳播網(wǎng)絡(luò)進行訓練了,而且該網(wǎng)絡(luò)在基準測試中表現(xiàn)得更好。隨著深度反向傳播網(wǎng)絡(luò)開始在計算機視覺領(lǐng)域挑戰(zhàn)傳統(tǒng)方法,2012 年的NIPS 大會上出現(xiàn)了這樣一句話:“神經(jīng)信息處理系統(tǒng)”里的“神經(jīng)”又回來了。

在20 世紀的最后10 年以及21 世紀前10 年的計算機視覺領(lǐng)域,在識別圖像中的對象方面取得的穩(wěn)步進展,使得基準測試(用于比較不同方法)的性能每年能提高百分之零點幾。方法改進的速度十分緩慢,這是因為每個新類別的對象,都需要有關(guān)專家對能夠?qū)⑺鼈兣c其他對象區(qū)分開來所需的與姿態(tài)無關(guān)的特征進行甄別。隨后,在2012年,杰弗里·辛頓和他的兩名學生艾力克斯·克里澤夫斯基(AlexKrizhevsky)和伊利婭·蘇特斯科娃向 NIPS 會議提交了一篇論文,關(guān)于使用深度學習訓練AlexNet 識別圖像中的對象,AlexNet 是本章要重點討論的深度卷積網(wǎng)絡(luò)。以擁有22 000 多個類別,超過1 500 萬個標記過的高分辨率圖像的ImageNet 數(shù)據(jù)庫作為基準,AlexNet 史無前例地將識別錯誤率降低到了18%。這次性能上的飛躍在計算機視覺社區(qū)中掀起了一股沖擊波,加速推動了更大規(guī)模網(wǎng)絡(luò)的發(fā)展,現(xiàn)在這些網(wǎng)絡(luò)幾乎已經(jīng)達到了人類的水平。到2015 年,ImageNet 數(shù)據(jù)庫的錯誤率已降至3.6%。當時還在微軟研究院的何愷明及其同事使用的低錯誤率深度學習網(wǎng)絡(luò),在許多方面都與視覺皮層十分相似;這類網(wǎng)絡(luò)由楊立昆最早提出,并最初把它命名為“Le Net”。

20 世紀 80 年代,杰弗里·辛頓和我第一次見到這個法國學生楊立昆(見圖9–1,右)。他9 歲時,就深受1968 年史詩級的科幻電影《2001 太空漫游》(2001: A Space Odyssey)中的任務計算機 HAL 9000的啟發(fā),想要開發(fā)人工智能。他曾獨立發(fā)明了反向傳播誤差算法的一種版本,并記錄在他1987 年的博士論文中,10 之后他就搬到多倫多,加入了杰弗里的團隊。后來,他轉(zhuǎn)去了美國電話電報公司(AT&T)在新澤西州霍姆德爾(Holmdel)的貝爾實驗室,在那里他創(chuàng)造了一個可以讀取信件上的手寫郵政編碼的網(wǎng)絡(luò),采用修訂的美國國家標準與技術(shù)研究院(Modified National Institute of Standards and Technology,簡稱MNIST)數(shù)據(jù)庫作為一種標記數(shù)據(jù)基準。每天有數(shù)百萬封信件需要遞送到信箱里;而今天,這個過程是完全自動化的。同樣的技術(shù)也可以用來自動讀取ATM 機上銀行支票的金額。有趣的是,最難的部分其實是查找支票上數(shù)字的位置,因為每張支票都有不同的格式。早在20 世紀 80 年代,楊立昆就顯露出了證明原理(學者們擅長的事情)并將之應用在現(xiàn)實世界中的非凡天賦。后者要求實際產(chǎn)品必須經(jīng)過嚴格的測試,且表現(xiàn)穩(wěn)健。

卷積網(wǎng)絡(luò)的漸進式改進

楊立昆在2003 年去了紐約大學后,仍繼續(xù)開發(fā)他的視覺網(wǎng)絡(luò),現(xiàn)在被稱為卷積網(wǎng)絡(luò)(ConvNet)(見圖9–2)。這個網(wǎng)絡(luò)的基本結(jié)構(gòu)是基于卷積的,卷積可以被想象成一個小的滑動濾波器,在滑過整張圖像的過程中創(chuàng)建一個特征層。例如,過濾器可以是一個定向邊緣檢測器,就像第5 章中介紹的那樣,只有當窗口對準圖像中具有正確方向或紋理的對象的邊緣時,才會產(chǎn)生大數(shù)值輸出。盡管第一層上的窗口只是圖像中的一小塊區(qū)域,但由于可以有多個濾波器,因此在每個圖塊中都能得到許多特征信息。第一層中與圖像卷積的濾波器,與大衛(wèi)·休伯爾和托斯坦·威澤爾在初級視覺皮層中發(fā)現(xiàn)的“簡單細胞”類似(見圖9–3)。更高層次的濾波器則對更復雜的特征做出響應。在卷積網(wǎng)絡(luò)的早期版本中,每個濾波器的輸出都要通過一個非線性的Sigmoid 函數(shù)(輸出從 0 平穩(wěn)地增加到 1),這樣可以抑制弱激活單元的輸出(見方框7.2 中的Sigmoid 函數(shù))。第二層接收來自第一層的輸入,第二層的窗口覆蓋了更大的視野區(qū)域,這樣經(jīng)過多層之后,就會存在一些能接收整個圖像輸入的單元。這個最頂層就類似于視覺層級的頂層,在靈長類動物中被稱為“下顳葉皮層”,并且具有覆蓋大部分視野的感受野。接著,頂層的單元被送入分類層,與其中的所有分類單元連接,再采用反向傳播誤差的方式訓練整個網(wǎng)絡(luò),對圖像中的對象進行分類。

(上圖)(a,b)視覺皮層中的層級結(jié)構(gòu),從視網(wǎng)膜輸入到初級視覺皮層(V 1),經(jīng)過丘腦(RGC, LGN)到下顳葉皮層(PIT,CIT,AIT),展示了視覺皮層區(qū)域和卷積網(wǎng)絡(luò)中層次的對應關(guān)系。(下圖)(c)左側(cè)圖像作為輸入映射到第一個卷積層,后者由幾個特征平面組成,每個特征平面代表一個濾波器,類似在視覺皮層中發(fā)現(xiàn)的定向簡單單元。這些濾波器的輸出經(jīng)過閾值處理并匯集到第一層,再進行歸一化處理,以便在小塊區(qū)域中產(chǎn)生不變的響應,類似于視覺皮層中的復雜細胞(圖中方框:線性—非線性層中的操作)。以上操作在網(wǎng)絡(luò)的每個卷積層上重復。輸出層與來自上一個卷積層的全部輸入具有全面的連接(每個輸出單元都有上一層全部單元的輸入)。

每個濾波器都作用于視野中的一小塊圖像區(qū)域。頂部三排中濾波器的優(yōu)選刺激像視覺皮層中的簡單細胞一樣具有定向性。底部三排顯示的優(yōu)選刺激經(jīng)過了擴展,并具有復雜的形狀。

卷積網(wǎng)絡(luò)多年來一直在經(jīng)歷許多漸進式改進。一個重要的補充,是將一個區(qū)域上的每個特征聚合起來,叫作“池化”(pooling)。這種操作提供了一種平移不變性(translation invariance)的量度,類似于由休伯爾和威澤爾在初級視覺皮層中發(fā)現(xiàn)的復雜細胞,能夠通過一個圖塊對整個視野中相同方向的線做出響應。另一個有用的操作是增益歸一化(gain normalization),就是調(diào)整輸入的放大倍數(shù),使每個單元都在其操作范圍內(nèi)工作,在皮層中是通過反饋抑制(feedbackinhibition)實現(xiàn)的。Sigmoid 輸出函數(shù)也被線性整流函數(shù)(rectifiedlinear units,簡稱ReLUs)取代。在輸入達到一個閾值之前這些單元的輸出都為零,超過閾值之后則輸出和輸入呈線性增長。該操作的優(yōu)點在于:低于閾值的單元被有效地排除在網(wǎng)絡(luò)外,這更接近真實神經(jīng)元中閾值的作用。

卷積網(wǎng)絡(luò)的每一個性能的改進,其背后都有一個工程師可以理解的計算理由。但有了這些變化,它越來越接近20 世紀 60 年代我們所了解的視覺皮層的體系結(jié)構(gòu),盡管當時我們只能去猜測簡單和復雜單元的功能是什么,或者層級結(jié)構(gòu)頂部的分布式表征的存在意味著什么。這說明了生物學與深度學習之間存在相得益彰的共生關(guān)系的潛力。

當深度學習遇到視覺層級結(jié)構(gòu)

加州大學圣迭戈分校的帕特里夏·丘奇蘭德不僅是心靈哲學家,同時也研究神經(jīng)哲學。知識最終取決于大腦如何表達知識的說法,顯然沒有人阻止哲學家認為知識是獨立于世界而存在的一種東西,用伊曼努爾·康德(Immanuel Kant)的話來說,就是“Ding an sich”(物自身)。但同樣清楚的是,如果我們(和其他動物一樣)要在現(xiàn)實世界中生存,背景知識就是必不可少的。經(jīng)過訓練的多層神經(jīng)網(wǎng)絡(luò)的隱藏單元之間的活動模式,與被逐次記錄下的大量生物神經(jīng)之間的活動模式存在顯著的相似性。受到這種相似性的驅(qū)動,帕特里夏和我在1992 年編寫了《計算腦》(The Computational Brain)一書,為基于大量神經(jīng)元的神經(jīng)科學研究開發(fā)了一個概念框架。(該書現(xiàn)在已經(jīng)出到第二版了,如果你想更多地了解大腦式的運算,這會是一本很好的入門參考。)麻省理工學院的詹姆斯·狄卡羅(James DiCarlo)最近比較了猴子視覺皮層層級結(jié)構(gòu)中不同神經(jīng)元和深度學習神經(jīng)網(wǎng)絡(luò)中的單元,訓練它們識別相同圖片中的對象,分別觀察它們的響應。他得出結(jié)論:深度學習網(wǎng)絡(luò)中每層神經(jīng)元的統(tǒng)計特性,與皮層層級結(jié)構(gòu)中神經(jīng)元的統(tǒng)計特性非常接近。

深度學習網(wǎng)絡(luò)中的單元與猴子視覺皮層中神經(jīng)元性能存在相似性,但其原因仍然有待研究,尤其是考慮到猴子的大腦不太可能使用反向傳播方式來進行學習。反向傳播需要將詳細的錯誤信號反饋給神經(jīng)網(wǎng)絡(luò)每層中的每個神經(jīng)元,其精度比生物神經(jīng)網(wǎng)絡(luò)中已知反饋連接的精度要高得多。但其他學習算法在生物學上似乎更合理,例如玻爾茲曼機學習算法,該算法使用了已經(jīng)在皮層中被發(fā)現(xiàn)的赫布突觸可塑性。這引出了一個有趣的問題,是否存在一種深度學習的數(shù)學理論,能夠適用于一大類學習算法(包括皮層中的那些)呢?在第7 章中,我提到了對視覺層級結(jié)構(gòu)的上層分類表面的分析,其決策表面比更低層級的表面更平坦。對決策表面的幾何分析可能會引出對深度學習網(wǎng)絡(luò)和大腦更深入的數(shù)學理解。

深度學習神經(jīng)網(wǎng)絡(luò)的一個優(yōu)點是,我們可以從網(wǎng)絡(luò)中的每個單元提取“記錄”,并追蹤信息流從一層到另一層的轉(zhuǎn)變。然后可以將分析這種網(wǎng)絡(luò)的策略用于分析大腦中的神經(jīng)元。關(guān)于技術(shù)的一個奇妙之處在于,技術(shù)背后通常都有一個很好的解釋,并且有強烈的動機來得到這種解釋。第一臺蒸汽發(fā)動機是由工程師根據(jù)他們的直覺建造的;解釋發(fā)動機如何工作的熱力學理論隨后出現(xiàn),并且?guī)椭嵘税l(fā)動機的效率。物理學家和數(shù)學家對深度學習網(wǎng)絡(luò)的分析也正在順利進行著。

有工作記憶的神經(jīng)網(wǎng)絡(luò)

自20 世紀 60 年代以來,神經(jīng)科學已經(jīng)走過了漫長的道路,從我們目前對大腦的了解中可以獲得很多東西。1990 年,帕特里夏·高德曼–拉奇克(Patricia Goldman-Rakic)訓練了一只猴子來記住一個地點,作為提示,該地點會短暫地被一盞燈照亮;她還訓練這只猴子在一段時間的延遲之后,把眼睛移動到被記住的地點。在記錄了猴子前額葉皮層的活動后,她在報告中提到,一些最初對提示做出回應的神經(jīng)元在延遲期間仍然保持活躍狀態(tài)。心理學家把人類的這種活動稱為“工作記憶”,也正因為有了工作記憶,我們在執(zhí)行任務(比如撥打電話號碼)時,能夠記住7±2 項內(nèi)容。

傳統(tǒng)的前饋網(wǎng)絡(luò)將輸入傳到網(wǎng)絡(luò)中,一次傳播一層網(wǎng)絡(luò)。結(jié)合工作記憶,可以使后續(xù)的輸入與之前的輸入在網(wǎng)絡(luò)中留下的痕跡進行交互。例如,把法語句子翻譯成英文時,網(wǎng)絡(luò)中的第一個法語單詞會影響后續(xù)英語單詞的順序。在網(wǎng)絡(luò)中實現(xiàn)工作記憶的最簡單方法,是添加人類皮層中常見的循環(huán)連接。神經(jīng)網(wǎng)絡(luò)中某一層內(nèi)的循環(huán)連接和之前那些層的反饋連接,使得輸入的時間序列可以在時間上整合起來。

這種網(wǎng)絡(luò)在20 世紀 80 年代被探索并廣泛應用于語音識別。在實踐中,它在具有短程依賴性的輸入方面效果很好,但當輸入之間的時間間隔很長,輸入的影響會隨著時間的推移發(fā)生衰減,網(wǎng)絡(luò)性能就會變差。1997 年,賽普·霍克萊特(Sepp Hochreiter)和尤爾根·施密德胡博(Jürgen Schmidhuber)找到了一種方法來克服衰變問題,他們稱之為“長短期記憶”(long short-term memory,簡稱 LSTM)。默認情況下,長短期記憶會傳遞原始信息,而不會發(fā)生衰減(這就是猴子前額葉皮層的延遲期中發(fā)生的事情),并且它也有一個復雜的方案來決定如何將新的輸入信息與舊信息整合。于是,遠程依賴關(guān)系可以被選擇性地保留。神經(jīng)網(wǎng)絡(luò)中這種工作記憶版本沉寂了長達20 年之久,直到它在深度學習網(wǎng)絡(luò)中再次被喚醒和實現(xiàn)。長短期記憶和深度學習的結(jié)合在許多依賴輸入輸出序列的領(lǐng)域都取得了令人矚目的成功,例如電影、音樂、動作和語言。

施密德胡博是位于瑞士南部提契諾州(Ticino)曼諾小鎮(zhèn)的 Dalle Molle 人工智能研究所的聯(lián)合主任。該小鎮(zhèn)靠近阿爾卑斯山,周圍有一些絕佳的徒步地點。神經(jīng)網(wǎng)絡(luò)領(lǐng)域的這位頗具創(chuàng)造性、特立獨行的“羅德尼·丹澤菲爾德”相信他的創(chuàng)造力并沒有得到足夠的贊譽。

因此,在蒙特利爾舉辦的2015 年NIPS 會議的一次小組討論會上,他再次向與會人員介紹了自己,“我,施密德胡博,又回來了”。而在巴塞羅那舉行的2016 年 NIPS 大會上,他因培訓宣講人沒有對自己的想法給予足夠的關(guān)注,而打亂對方的演講長達5 分鐘。

2015 年,Kelvin Xu 及其同事在用一個深度學習網(wǎng)絡(luò)識別圖像中對象的同時,還連接了一個長短期記憶循環(huán)網(wǎng)絡(luò)來標注圖片。使用來自深度學習網(wǎng)絡(luò)第一遍識別的場景中所有對象作為輸入,他們訓練長短期記憶循環(huán)網(wǎng)絡(luò)輸出一串英文單詞,能夠形容一個標注中的場景。他們還訓練了長短期記憶網(wǎng)絡(luò)來識別圖像中的位置,使其對應于標注中的每個單詞。該應用令人印象深刻的地方在于,長短期記憶網(wǎng)絡(luò)從未被訓練來理解標注中句子的含義,只是根據(jù)圖像中的對象及其位置輸出一個語法正確的單詞串。通過分析長短期記憶網(wǎng)絡(luò)也許會引出一種新的語言理論,它將闡明網(wǎng)絡(luò)的工作原理和自然語言的性質(zhì)。

深度學習為圖片做標注。頂部的一組圖片說明了分析照片的步驟。ConvNet( CNN)在第一步中標記了照片中的對象,并將其傳遞給循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)。RNN 被訓練輸出適當?shù)挠⑽膯卧~串。底部的四組圖片則闡明了進一步細化的過程,即使用注意力(白色云)來表示照片中單詞的指示對象。

生成式對抗網(wǎng)絡(luò)

在第7章中,玻爾茲曼機被當作一個生成模型進行了介紹,當輸出被鉗制到一個它已訓練識別的類型中,并且其活動模式向下滲透到輸入層時,就可以產(chǎn)生新的輸入樣本。伊恩·古德費洛(Ian Goodfellow)、約書亞·本吉奧(Yoshua Bengio)和他們在蒙特利爾大學的同事們表示,可以訓練前饋網(wǎng)絡(luò),在對抗的背景(adversarialcontext)下生成更好的樣本。一個生成卷積網(wǎng)絡(luò)可以通過嘗試欺騙另一個卷積神經(jīng)網(wǎng)絡(luò)來訓練生成優(yōu)質(zhì)的圖像樣本,后者必須決定一個輸入的圖像是真實的還是虛假的。生成網(wǎng)絡(luò)的輸出被用來作為一個經(jīng)過訓練的判別卷積網(wǎng)絡(luò)(discriminative convolutional network)的輸入,后者只給出一個單一的輸出:如果輸入是真實圖像,就返回1,否則返回0。這兩個網(wǎng)絡(luò)會相互競爭。生成網(wǎng)絡(luò)試圖增加判別網(wǎng)絡(luò)的錯誤率,而判別網(wǎng)絡(luò)則試圖降低自身的錯誤率。由這兩個目標之間的緊張關(guān)系產(chǎn)生的圖像,擁有令人難以置信的照片級的真實感。

生成式對抗網(wǎng)絡(luò)(GAN)。頂部的示意圖展示了一個卷積網(wǎng)絡(luò),用于生成一組樣本圖像,經(jīng)過訓練后可以欺騙判別卷積網(wǎng)絡(luò)。左邊的輸入是100 維的隨機選取的連續(xù)值向量,用來生成不同的圖像;輸入的向量隨后激活空間尺度逐層變大的濾波器層。下方的圖顯示了通過訓練來自單個類別照片的生成式對抗網(wǎng)絡(luò)產(chǎn)生的樣本圖像。

別忘了,這些生成的圖像是合成的,它們中的對象并不存在。它們是訓練集中未標記圖像的泛化版本。請注意,生成式對抗網(wǎng)絡(luò)是無監(jiān)督的,這使得它們可以使用無限的數(shù)據(jù)。這些網(wǎng)絡(luò)還有許多其他應用,包括清除具有超高分辨率的星系天文圖片中的噪聲,以及學習表達富有情感的言語。

用面部圖片訓練的生成式網(wǎng)絡(luò)的輸入混合后,產(chǎn)生了輸出(左圖),然后通過添加或減去選定的輸入向量進行輸出,就創(chuàng)建出了混合后的圖像(右圖)。因為混合是在最高的表征層完成的,所以部位和姿勢是無縫接合的,并不會經(jīng)過變形過程中那樣的平均處理。

通過慢慢地改變生成式網(wǎng)絡(luò)的輸入向量,有可能逐漸改變圖像,使得部件或零碎物品(如窗戶)逐漸顯現(xiàn)或變成其他物體(如櫥柜)。更值得關(guān)注的是,有可能通過添加和減去表示網(wǎng)絡(luò)狀態(tài)的向量以獲得圖像中對象的混合效果,如圖9–6 所示。這些實驗的意義在于,生成網(wǎng)絡(luò)對圖像中空間的表征,正如我們?nèi)绾蚊枋鰣鼍暗母鱾€組成部分。這項技術(shù)正在迅速發(fā)展,其下一個前沿領(lǐng)域是生成逼真的電影。通過訓練一個反復演繹的生成式對抗網(wǎng)絡(luò),與類似瑪麗蓮·夢露這樣的演員參演的電影進行對比,應該有可能創(chuàng)造出已過世的演員出演的新作品。

這是米蘭的時裝周,衣著光鮮的模特們帶著超凡脫俗的表情在T臺上走秀。時尚界正在經(jīng)歷暗潮涌動:“‘很多工作正在消失,’西爾維婭·文圖里尼·芬迪(Silvia Venturini Fendi)在她的時裝秀開場前說道,‘機器人會承擔舊的工作,但它們唯一無法取代的就是我們的創(chuàng)造力和思維?!爆F(xiàn)在想象一下經(jīng)過訓練的新一代對抗網(wǎng)絡(luò),它們可以生產(chǎn)新款式和高級時裝,式樣幾乎無窮無盡。時尚界可能正處于一個新時代的邊緣,而許多其他依賴創(chuàng)意的行業(yè)也面臨著相同的處境。

應對現(xiàn)實社會的復雜性

當前的大多數(shù)學習算法是在25 年前開發(fā)的,為什么它們需要那么長的時間才能對現(xiàn)實世界產(chǎn)生影響呢?20 世紀 80 年代的研究人員使用的計算機和標記數(shù)據(jù),只能證明玩具問題的原理。盡管取得了一些似乎頗有前景的成果,但我們并不知道網(wǎng)絡(luò)學習及其性能如何隨著單元和連接數(shù)量的增加而增強,以適應現(xiàn)實世界問題的復雜性。人工智能中的大多數(shù)算法縮放性很差,從未跳出解決玩具級別問題的范疇。我們現(xiàn)在知道,神經(jīng)網(wǎng)絡(luò)學習的縮放性很好,隨著網(wǎng)絡(luò)規(guī)模和層數(shù)的不斷增加,其性能也在不斷增強。特別是反向傳播技術(shù),它的縮放性非常好。

我們應該對此感到驚訝嗎?大腦皮層是哺乳動物的一項發(fā)明,在靈長類動物,尤其是人類中得到了高度發(fā)展。隨著它的擴展,更多的功能慢慢出現(xiàn),并且更多層次被添加到了關(guān)聯(lián)區(qū)域,以實現(xiàn)更高階的表征。很少有復雜系統(tǒng)可以實現(xiàn)如此高級的縮放?;ヂ?lián)網(wǎng)是為數(shù)不多的已經(jīng)被擴大了100 萬倍的工程系統(tǒng)之一。一旦通信數(shù)據(jù)包協(xié)議建立起來,互聯(lián)網(wǎng)就會開始進化,正如DNA 中的遺傳密碼使細胞演化成為可能一樣。

使用相同的一組數(shù)據(jù)訓練許多深度學習網(wǎng)絡(luò),會導致生成大量不同的網(wǎng)絡(luò),它們都具有大致相同的平均性能水平。我們想知道的是,所有這些同等優(yōu)秀的網(wǎng)絡(luò)有哪些共同之處,而對單個網(wǎng)絡(luò)進行分析并不能揭示這一點。理解深度學習原理的另一種方法是進一步探索學習算法的空間;我們只在所有學習算法的空間中對幾個位置進行了抽樣嘗試。從更廣泛的探索中可能會出現(xiàn)一種學習計算理論,該理論與其他科學領(lǐng)域的理論一樣深奧,可能為從自然界中發(fā)現(xiàn)的學習算法提供更多的解釋。

蒙特利爾大學的約書亞·本吉奧,和楊立昆一起,接替杰弗里·辛頓,成為CIFAR 神經(jīng)計算和NCAP 項目的主任,該項目在通過十年評估后更名為“機器學習和大腦學習”項目(Learning in Machines and Brains)。約書亞率領(lǐng)蒙特利爾大學的一個團隊,致力于應用深度學習來處理自然語言,這將成為“機器學習和大腦學習”項目新的研究重點。在十多年的會議中,這個由20 多名教師和研究員組成的小組開啟了深度學習的研究。過去5 年來,深度學習在過去難以解決的許多問題上取得了實質(zhì)性進展,這些進展歸功于小組成員的努力,他們當然只是一個更龐大社區(qū)中的一小部分人。

約書亞·本吉奧是 CIFAR“機器學習和大腦學習”項目的聯(lián)合主任。這位在法國出生的加拿大籍計算機科學家,一直是應用深度學習處理自然語言問題這個領(lǐng)域的領(lǐng)導者。杰弗里·辛頓、楊立昆和約書亞·本吉奧所取得的進展,為深度學習的成功奠定了基礎(chǔ)。圖片來源:約書亞·本吉奧。

盡管深度學習網(wǎng)絡(luò)的能力已經(jīng)在許多應用中得到了證明,但如果單靠自身,它們在現(xiàn)實世界中永遠都無法存活下來。29 它們受到了研究者的青睞,后者為其提供數(shù)據(jù),調(diào)整超參數(shù),例如學習速度、層數(shù)和每層中的單元數(shù)量,以改善收斂效果,還為其提供了大量計算資源。另一方面,如果沒有大腦和身體的其他部分提供支持和自主權(quán),大腦皮層也無法在現(xiàn)實世界中存活。在一個不確定的世界中,這種支持和自主權(quán)是一個比模式識別更難解決的問題。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器視覺
    +關(guān)注

    關(guān)注

    163

    文章

    4597

    瀏覽量

    122900
  • 圖像識別
    +關(guān)注

    關(guān)注

    9

    文章

    527

    瀏覽量

    39113
  • 卷積
    +關(guān)注

    關(guān)注

    0

    文章

    95

    瀏覽量

    18759

原文標題:卷積學習與圖像識別的技術(shù)發(fā)展

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    火車車號圖像識別系統(tǒng)如何應對不同光照條件下的識別問題?

    在鐵路運輸管理中,準確識別火車車號是實現(xiàn)自動化車輛管理的關(guān)鍵環(huán)節(jié)。然而,實際應用場景中復雜多變的光照條件給車號識別帶來了巨大挑戰(zhàn)。現(xiàn)代火車車號圖像識別系統(tǒng)通過多項技術(shù)創(chuàng)新,有效解決了這
    的頭像 發(fā)表于 07-15 11:37 ?125次閱讀
    火車車號<b class='flag-5'>圖像識別</b>系統(tǒng)如何應對不同光照條件下的<b class='flag-5'>識別</b>問題?

    輪邊驅(qū)動電機專利技術(shù)發(fā)展

    ,具有較高的靈敏度。 本文主要以 DWPI 專利數(shù)據(jù)庫以及 CNABS 數(shù)據(jù)庫中的檢索結(jié)果為分析樣本,從專利文獻的視角對輪邊驅(qū)動電機的技術(shù)發(fā)展進行了全面的統(tǒng)計分析,總結(jié)了與輪邊驅(qū)動電機相關(guān)的國內(nèi)和國外
    發(fā)表于 06-10 13:15

    手持終端集裝箱識別系統(tǒng)的圖像識別技術(shù)

    行業(yè)提供了更靈活、精準的管理工具。 一、技術(shù)核心:OCR+AI深度融合 現(xiàn)代手持終端系統(tǒng)采用多模態(tài)圖像識別技術(shù),結(jié)合深度學習算法,可快速捕捉并解析集裝箱號碼。其
    的頭像 發(fā)表于 04-03 10:49 ?297次閱讀

    岸橋箱號識別系統(tǒng)如何工作?揭秘AI圖像識別技術(shù)

    在港口自動化升級的浪潮中,AI岸橋識別系統(tǒng)憑借前沿的圖像識別技術(shù),成為提升碼頭作業(yè)效率的“智慧之眼”。那么,這套系統(tǒng)如何實現(xiàn)集裝箱信息的精準捕捉?又是如何通過AI技術(shù)替代傳統(tǒng)人工理貨?
    的頭像 發(fā)表于 04-02 09:45 ?260次閱讀

    BP神經(jīng)網(wǎng)絡(luò)在圖像識別中的應用

    BP神經(jīng)網(wǎng)絡(luò)在圖像識別中發(fā)揮著重要作用,其多層結(jié)構(gòu)使得網(wǎng)絡(luò)能夠學習到復雜的特征表達,適用于處理非線性問題。以下是對BP神經(jīng)網(wǎng)絡(luò)在圖像識別中應用的分析: 一、BP神經(jīng)網(wǎng)絡(luò)基本原理 BP神經(jīng)網(wǎng)絡(luò),即反向
    的頭像 發(fā)表于 02-12 15:12 ?679次閱讀

    FPGA圖像處理基礎(chǔ)----實現(xiàn)緩存卷積窗口

    素行進行緩存與變換。由于在圖像處理過程中,經(jīng)常會使用到卷積,因此需要對圖像進行開窗,然后將開窗得到的局部圖像卷積核進行
    的頭像 發(fā)表于 02-07 10:43 ?828次閱讀
    FPGA<b class='flag-5'>圖像</b>處理基礎(chǔ)----實現(xiàn)緩存<b class='flag-5'>卷積</b>窗口

    高幀頻圖像識別反無人機 慧視有辦法!

    無人機的迅猛發(fā)展,使得無人機的反制技術(shù)也水漲船高,常見的有電子干擾、無人機識別對抗等。前者通過發(fā)射特定頻率的無線電波對無人機的通信鏈路、控制信號實施干擾。后者采用圖像識別
    的頭像 發(fā)表于 12-04 01:06 ?604次閱讀
    高幀頻<b class='flag-5'>圖像識別</b>反無人機   慧視有辦法!

    卷積神經(jīng)網(wǎng)絡(luò)在自然語言處理中的應用

    自然語言處理是人工智能領(lǐng)域的一個重要分支,它致力于使計算機能夠理解、解釋和生成人類語言。隨著深度學習技術(shù)發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(CNNs)作為一種強大的模型,在
    的頭像 發(fā)表于 11-15 14:58 ?807次閱讀

    深度學習中的卷積神經(jīng)網(wǎng)絡(luò)模型

    深度學習近年來在多個領(lǐng)域取得了顯著的進展,尤其是在圖像識別、語音識別和自然語言處理等方面。卷積神經(jīng)網(wǎng)絡(luò)作為深度學習的一個分支,因其在
    的頭像 發(fā)表于 11-15 14:52 ?846次閱讀

    AI圖像識別攝像機

    隨著科技的迅猛發(fā)展,人工智能(AI)在各個領(lǐng)域的應用越來越廣泛,其中圖像識別技術(shù)尤為引人注目。AI圖像識別攝像機作為這一技術(shù)的重要應用之一,
    的頭像 發(fā)表于 11-08 10:38 ?874次閱讀
    AI<b class='flag-5'>圖像識別</b>攝像機

    GPU深度學習應用案例

    GPU在深度學習中的應用廣泛且重要,以下是一些GPU深度學習應用案例: 一、圖像識別 圖像識別是深度學習的核心應用領(lǐng)域之一,GPU在加速
    的頭像 發(fā)表于 10-27 11:13 ?1367次閱讀

    關(guān)于卷積神經(jīng)網(wǎng)絡(luò),這些概念你厘清了么~

    這個小型網(wǎng)絡(luò),用于描述網(wǎng)絡(luò)的方程中也具有32個偏置和32個權(quán)重。 CIFAR神經(jīng)網(wǎng)絡(luò)是一種廣泛用于圖像識別的CNN。它主要由兩種類型的層組成:卷積層和池化層,這兩種層分別使用卷積和池化兩種方法,在
    發(fā)表于 10-24 13:56

    AI大模型在圖像識別中的優(yōu)勢

    大模型借助高性能的計算硬件和優(yōu)化的算法,能夠在短時間內(nèi)完成對大量圖像數(shù)據(jù)的處理和分析,顯著提高了圖像識別的效率。 識別準確性 :通過深度學習和計算機視覺
    的頭像 發(fā)表于 10-23 15:01 ?2437次閱讀

    【飛凌嵌入式OK3576-C開發(fā)板體驗】RKNPU圖像識別測試

    和突觸的處理器,特別擅長處理人工智能任務,能夠大大降低CPU和GPU的負擔。 功能 :RKNPU負責處理需要高計算性能的人工智能任務,如圖像識別、語音識別、自然語言處理等,從而提升設(shè)備的智能化水平
    發(fā)表于 10-10 09:27

    深度識別算法包括哪些內(nèi)容

    :CNN是深度學習中處理圖像和視頻等具有網(wǎng)格結(jié)構(gòu)數(shù)據(jù)的主要算法。它通過卷積層、池化層和全連接層等組件,實現(xiàn)對圖像特征的自動提取和識別。 應
    的頭像 發(fā)表于 09-10 15:28 ?843次閱讀
    主站蜘蛛池模板: 1314酒色网| 亚洲伊人天堂 | 免费国产h视频在线观看 | 黑人一区二区三区中文字幕 | 欧美黑人换爱交换乱理伦片 | 欧美色图俺去了 | 九色中文| 51视频在线观看免费国产 | 国产小视频在线观看 | 男人资源网| 亚洲淫视频 | 一级片在线免费播放 | 久久久久88色偷偷免费 | 大量国产后进翘臀视频 | hs视频在线观看 | 欧美三级视频网 | 男人透女人超爽视频免费 | 亚洲激情a| 久久精品男人的天堂 | 日韩毛片高清在线看 | 亚洲精品国产美女在线观看 | 欧美一区二区视频三区 | 老湿成人影院 | 国产美女主播在线 | 亚欧有色亚欧乱色视频 | aaa一级最新毛片 | 夜夜爽一区二区三区精品 | 26uuu另类亚洲欧美日本一 | 欧美成人全部费免网站 | 天天综合色天天综合网 | 婷婷综合久久中文字幕 | 欧美极品第一页 | 国产色婷婷精品综合在线 | 久热精品在线视频 | 精品视频一区在线观看 | 在线看片福利 | 成人永久免费视频网站在线观看 | 女性一级全黄生活片 | 国产高清免费视频 | 高清在线观看视频 | 精品亚洲国产国拍 |