辰东,已完结小说排行榜,耳根

Uber近日一篇論文引起許多討論：該論文稱發現卷積神經網絡一個引人注目的“失敗”，并提出解決方案CoordConv。論文稱CoordConv解決了坐標變換問題，具有更好的泛化能力，訓練速度提高150倍，參數比卷積少10-100倍。當然，這是在極大的計算力（100個GPU）的基礎上進行的。這真的是重要的結果嗎？計算機視覺領域專家Filip Piekniewski對此提出質疑。

我讀了很多深度學習論文，通常每周都會閱讀幾篇。我讀過的論文可能已經有上千篇。我發現，機器學習或深度學習方面的論文普遍存在的問題是，它們通常處于科學和工程之間的某個無人區，我稱之為“學術工程”（ac ademic engineering）。我對其描述為：

以我個人的淺見而言，一篇科學論文應該傳達一種有能力解釋某事的idea。例如，一篇證明數學定理的論文，一篇提出某種物理現象模型的論文。或者，一篇科學論文可以是實驗性的，實驗的結果告訴我們一些關于現實的基本知識。盡管如此，科學論文的核心思想是對一些非平凡的普遍性（和預測力）或對現實本質的一些非平凡的觀察的相對簡潔的表述。

一篇工程論文應該介紹一種解決特定問題的方法。問題可能會因應用而異，有時它們可能非常無趣而具體，但對某個領域的人來說卻是有用的。對于一篇工程論文來說，與科學論文不同的是：解決方案的普遍性可能不是最重要的。重要的是解決方案能夠有效地實施，例如，給定可用的組件，能比其他解決方案更便宜或更節能，等等。工程論文的核心思想是應用，其余的僅僅是解決應用問題的想法的集合。

機器學習介于兩者之間。機器學習領域既有一些明顯的科學論文（例如提出反向傳播backprop的論文），也有一些明顯的工程論文的例子，例如描述一個非常特殊的實際問題的解決方案。但機器學習中大多數論文似乎都是工程的，只不過它們的工程是指在一個學術數據集上設計出一種綜合的測量方法。為了顯示出優勢，一些特別的技巧被從沒有人知道的地方提取出來（通常具有極其有限的普遍性），并且經過一些統計上不重要的測試后宣布該方法最優。

還有第四種論文，它確實提出一個idea。這個idea甚至可能是有用的，但它同時也是微不足道的。為了掩蓋這種尷尬的事實，“學術工程”重炮再次上膛，使得論文整體上看起來令人印象深刻。

這就是Uber人工智能實驗室（Uber AI labs）最近的一篇論文“"An Intriguing Failing of Convolutional Neural Networks and the CoordConv Solution”（卷積神經網絡的問題及其解決方案CoordConv）的情況，我將在下面詳細剖析這篇論文。

只需大約50行python代碼的事情

讓我們直接看這篇論文的內容。

這篇論文的核心論點是：卷積神經網絡在需要定位的任務上表現不太好，在這些任務中，輸出標簽或多或少是輸入實體坐標的直接函數，而不是該輸入的任何其他屬性。

卷積網絡確實不能很好地解決這個問題，因為卷積神經網絡的原始模型神經認知機（Neocognitron）的設計就是忽視位置的。接下來，作者提出了一個解決方案：在卷積層中添加坐標，作為附加的輸入映射。

卷積層和添加坐標的CoordConv層

這聽起來非常聰明，但作者實際上提出的是該領域任何一名從業者都認為是理所當然的東西——添加一個更適合解碼所需輸出的特征（feature）。任何在計算機視覺領域做實際工作的人都不會認為添加特征有什么非凡之處，盡管在深度學習圈的純粹學術爭論中這是一個激烈的話題，脫離實際應用的研究人員認為我們應該只使用學習的特征，因為這種方式更好。因此，深度學習的研究人員現在開始喜歡特性工程，雖然這也許不是壞事……

總之，他們添加了一個特性，即坐標的顯式值。然后他們創建了一個簡單的數據集（稱之為Not-so-Clevr），以測試這一想法的性能。

Not-so-Clevr數據集

那么他們的實驗是否聰明呢？讓我們看看。

論文中使用的Toy tasks

任務之一是基于坐標生成一個one-hot圖像，或者基于一個one-hot圖像生成坐標。實驗表明，將坐標添加到卷積網絡確實可以顯著提高性能。

不過如果他們不是直接跳到TensorFlow，也許這就不那么令人震驚了，他們會發現，可以明確地構建一個神經網絡來解決從one-hot到坐標的關聯問題，而無需任何訓練。對于這個任務，我會使用三個操作：卷積、非線性激活、以及求和。幸運的是，這些都是卷積神經網絡的基本組成部分：

注意：one hot像素位圖到坐標翻譯！一個卷積層，一個非線性激活，一個求和，最后一個減法。就是這樣。無需學習，只有大約50行python代碼（帶注釋）……對于這個任務，給定坐標特征是微不足道的。毫無疑問，這是可行的。到目前為止，我們所用的知識還沒有超出一個剛上完ML 101課程的學生所能解決的。所以，他們不得不使用重型火炮：GAN。

好吧，讓我們用GAN試試這個合成生成任務，一個帶有坐標特征，一個沒有。好了，現在讓我們繼續看論文……

他們在附錄的表格中給出了結果：

他們在ImageNet上嘗試了這個坐標特征，將它添加到ResNet-50網絡的第一層。我認為不會有太大的差別，因為ImageNet中的類別讀取不是位置的函數（如果存在這樣的偏差，那么在訓練期間的數據增強應該完全刪除它）。所以他們用100個GPU來訓練網絡（100個GPU！天啊！）。然而，到小數點后第4位，結果才顯示出一點差異。Facebook、谷歌的人可能會用10000個GPU來復現這個結果吧。這些GPU能不能用來做些更重要的事情?

總結

這確實是一篇吸引人的論文。它揭露了當前深度學習研究的淺薄之處，這些研究被荒謬的計算量所掩蓋了。為什么Uber AI 實驗室要做這個研究？有什么意義？我的意思是，如果這些是某個大學的某些學生做的，他們想做出點什么投給會議，那么無可厚非。但Uber AI？我以為這些人應該致力于打造自動駕駛汽車，不是嗎？不過，比這篇論文更有趣的是哪些對這個結果的無足輕重無知，而去贊美它的追隨者。請閱讀原始博客（https://eng.uber.com/coordconv）的評論，或者Twitter上的評論，贊美者甚至包括一些著名的DL研究人員。他們顯然花了很多時間盯著GPU上的進度條，才意識到他們在稱贊一些顯而易見的東西，這些顯而易見的東西可以用幾行python代碼手工構建。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

神經網絡

神經網絡

+關注

關注
42

文章
4808

瀏覽量
102822
機器學習

機器學習

+關注

關注
66

文章
8492

瀏覽量
134118
python

python

+關注

關注
56

文章
4825

瀏覽量
86213

原文標題：【卷積神經網絡失陷】幾行Python代碼搞定，偏要用100個GPU！

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關注！文章轉載請注明出處。

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

卷積神經網絡的問題及其解決方案CoordConv

評論