在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Uber提出卷積網絡在坐標變換上的缺陷限制了它的性能提升

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-07-16 09:21 ? 次閱讀

編者按:卷積神經網絡如今的應用已十分廣泛,但是uber的工程師們最近表示,卷積網絡在坐標變換上的缺陷限制了它的性能提升,而uber開發的CoordConv結構正好可以解決這一問題。以下是論智帶來的編譯:

Uber在很多設計坐標變換的領域都使用了卷積神經網絡,從設計自動駕駛工具到自動信號燈監測和建造地圖等等,這些工具都大大提升了空間移動效率。

深度學習中,很少能有像卷積影響深遠的成果。幾乎機器視覺中所有先進成果都用了堆疊的卷積層作為基本搭建模塊。由于這種結構的廣泛應用,我們期待它們能應用于一些簡單任務,例如在小尺寸圖畫上繪畫單一像素。

但令人驚訝的是,卷積結構似乎很難處理看上去很平常瑣碎的任務。在我們的論文——An Intriguing Failing of Convolutional Neural Networks and the CoordConv Solution中,我們研究并分析了卷積神經網絡的一種常見缺陷,即它無法將空間表示轉換成笛卡爾空間中的坐標和one-hot像素空間中的坐標。這很意外,因為這些任務似乎很簡單,并且此類坐標的轉換也是解決常見問題的必備方法,例如圖像中的物體檢測、訓練生成模型、訓練強化學習智能體等等,所以也很重要。經過研究我們發現,這些任務已經多多少少受到卷積結構的限制。所以為了提升性能,我們提出了一種名為CoordConv的解決方案,在多個領域進行了成果展示。

發現一:CNN很難做到監督式渲染

我們先從一個簡單的監督式渲染開始,假設我們向一個網絡中輸入(i, j)坐標,要求它輸出一個64×64的圖像,并在坐標處畫一個正方形,如圖1a所示。你會用哪種網絡進行這一問題呢?

我們可以借鑒很多用于圖片生成的方法,用反卷積層畫正方形。為了測試這種方法,我們創建了一個數據集,其中在64×64的畫布上隨機放置了一些9×9的方塊,如圖1b所示。將數據集中方塊所有可能的位置列出后,總共有3136個樣本。為了評估模型生成的表現,我們將樣本分為兩組訓練/測試數據集:一組是將數據集中80%坐標用于訓練,20%用于測試。另一組中將畫布從中分為四個象限,坐標位于前三個象限的用于訓練,第四象限的坐標用于測試。兩組數據的分布如1c所示。

圖1

我們設想CNN能完成這個任務,因為它很簡單(整個數據集可能用兩行Python就能表示出來了),并且數據集很小,我們能輕易地用模型進行參數設定。但結果恰恰相反,CNN表現得極差。即使有1M的參數、訓練了90分鐘(圖2b),模型在第一個數據集上也沒達到0.83的IOU分數,在第二個數據集上甚至都沒超過0.36(圖2a)。

圖2

簡化任務以及發現二:監督式坐標分類對CNN也很困難

所以為什么監督式渲染對CNN這么難?我們需要深入挖掘一下原因。的確,如果在直接的監督條件下渲染訓練都這么困難,在無監督下會更有挑戰性。

我們先看一下是什么讓這個問題變得困難。現在我們讓網絡簡單地繪制一個像素,而不是9×9的方塊。可以想象,如果這個任務能解決,那么之后的反卷積網絡就可以輕易地將單一像素擴展成更大的方塊。于是我們開始了監督式坐標分類任務(如圖3a)其中的數據集包括成對的(i, j)坐標,并且有單一對應像素的圖像,如圖3b:

圖3

之后我們又嘗試了擁有不同參數的網絡,發現及時有些網絡能記住訓練集,但沒有一個的測試準確率超過86%(如圖4a)。并且訓練時間都超過了一小時。

圖4 兩數據集上的訓練和測試結果

我們期望卷積網絡能表現的很好,但是很遺憾它并沒有。為了弄清楚原因,我們選擇了表現最好的網絡,來驗證結果。

我們讓網絡畫一張圖,上面僅有一個像素(即在one-hot表示中的值為1)。為了看看發生了什么,我們放大了該區域。在圖5中,目標像素用紅色圈出,我們展示出了模型的softmax預測和logits圖。第一個像素(第一行)是訓練集中的數據,所以模型做對了,雖然模型在其周圍也做了一些預測。第二個像素(第二行)來自測試集,模型險些沒有猜對,可以看到左上像素的概率也挺大的。最后一個像素(第三行)顯示模型完全預測錯誤。

圖5

反方向和第三個發現:監督式回歸對CNN同樣很難

所以為什么網絡很難定位一個像素呢?是因為從小空間到大空間的轉換很困難嗎?如果朝一個方向會不會容易點呢?如果我們訓練卷積網絡將圖像信息轉換成標量坐標,是否與普通圖像分類更相似呢?

結果模型在這種監督式回歸的任務上同樣表現得不好。在圖10中,左邊圖中的點表示正確的像素坐標,中間圖中的點表示模型的預測。模型在測試集上表現得不好,并且在訓練集上也差強人意。

簡單地說,方向根本不重要。

所以,這一看似簡單的坐標轉換任務在卷積網絡身上主要有兩個問題:從笛卡爾空間轉換到one-hot像素空間及其他方式上。即使用監督式方法進行訓練,即使只有一個像素,即使所有的訓練案例很容易獲得,卷積仍然學不會順利轉換。另外,表現最好的卷機模型體積巨大,訓練耗時很長。

解決辦法:CoordConv

我們提出了解決這一難題的方法。

卷積是等變的,也就是說當每個過濾器應用到輸入上時,它不知道每個過濾器在哪。我們可以幫助卷積,讓它知道過濾器的位置。這一過程需要在輸入上添加兩個通道實現,一個在i坐標,另一個在j坐標。我們將這個圖層成為CoordConv,如圖6所示:

圖6

我們提出的CoordConv圖層是標準卷積層的簡單擴展,其中卷積和坐標相對應。讓卷積過濾器看到坐標其實違背了等變性原則,看起來不是個好方法,但是,等變性原則對卷積有好處嗎?

我們認為,卷積獲得成功的原因主要依靠三個元素:運用相對較少的學習參數、在GPU上計算速度很快、它學習的函數時符合平移等變性的。

CoordConv保留了前兩種特點——較少的參數和高效的計算。如果坐標的權重變為零,CoordConv就和普通卷積沒什么區別。另一方面,如果平移依賴對下游任務有用的話,它也同樣可以學習。

CoordConv與目前很多理念相關,例如局部連接層、復合模式生成網絡(CPPN)以及語言建模中用到的位置嵌入。

用CoordConv解決此前的監督問題

首先,讓我們回顧下剛剛提到的任務,并看一下CoordConv如何解決。

如圖7和圖8所示,CoordConv模型在監督式坐標分類和監督式渲染任務上都達到了最佳訓練和測試性能。另外,CoordConv的參數比之前少10—100倍,訓練時間幾秒就完成,比之前快了150倍。

圖7

圖8

為了進一步驗證,下圖9展示了普通反卷積和CoordConv的對比:

圖9

當用卷積繪制像素時,我們發現了明顯的殘影和過擬合現象。CoordConv在訓練集和測試集上都表現的很好。同樣,在反方向的情況上也是如此。盡管卷積很難對坐標進行回歸,CoordConv能表現的很好:

圖10

CoordConv應用廣泛

以下是我們總結的CoordConv的應用場景:

目標檢測

目標檢測模型也是在像素塊空間中尋找,輸出的是笛卡爾空間中的邊界框,所以看起來CoordConv很適合。我們還發現,在簡單的MNIST數據集檢測上,Faster-RCNN網絡的IOU分數提高了約24%。

圖像分類

在所有視覺任務中,我們很期待CoordConv對分類任務的提高,因為分類更關乎的是“這物體是什么”而不是“它在哪”。實際上,當我們將CoordConv圖層添加到ResNet-50的底部,并在ImageNet上訓練后,卻只有很少的進步。

生成模型

在類似GAN和VAE這樣的生成模型中,像素是在隱藏空間中的,對于高層次概念的編碼是很理想的位置。也許CoordConv能對此有所幫助。利用基于Sort-of-CLEVR的簡單數據集,我們訓練了GAN和VAE,并展示了隱藏空間之間的插值。

這次的任務是生成帶有顏色的形狀。圖11左邊是普通的GAN,右邊是CoordConv GAN。我們在隱藏空間中對點之間進行插值,研究CoordConv的影響,這也是評估生成模型性能的常用方法之一。

圖11

對于普通GAN來說,動畫一開始看起來很好。但是當我們近距離觀察后發現,并不是所有像素都在移動。一些小的殘影會靜止不動,有些點會時不時的消失再出現。當我們加入CoordConv后,動作變得流暢了許多。

在訓練VAE時我們也發現了相似的情況。在有卷積的情況下,我們觀察到圖中一部分物體會逐漸消失,但后來加入CoordConv就不會有這種情況。

當用GAN繪制更大的場景時,普通的GAN仍會出現靜止不動的物體時不時消失,而CoordConv對于變換就很流暢。

強化學習

強化學習也是CoordConv想提供幫助的一個領域,我們訓練智能體玩吃豆人,我們認為如果卷積過濾器能立刻認出其他豆人并且鎖定其在迷宮中的位置,那么這對學習更好的策略是很有幫助的。

我們試著將CoordConv加入到Distributed Prioritized Experience Replay(Ape-X)中,但是CoordConv并沒有立即提升其性能。我們又試了A2C,這是一種常用的策略梯度方法,CoordConv起了作用。經過訓練,如我們所想,吃豆人的分數有所提高,也證明CoordConv可以幫助強化學習。

下一步

在這篇文章中,我們研究了CNN在轉換坐標時的不佳性能,所以對此提出了CoordConv這一解決方法。這一結果還可以用到其他類別廣泛的應用中,未來我們會進一步評估CoordConv在大型數據集上的作用,研究它對檢測、語言任務、視頻預測等具有空間轉換網絡的應用的影響。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4787

    瀏覽量

    101383
  • 自動駕駛
    +關注

    關注

    785

    文章

    13969

    瀏覽量

    167414
  • 強化學習
    +關注

    關注

    4

    文章

    268

    瀏覽量

    11326

原文標題:Uber提出CoordConv:解決了普通CNN的坐標變換問題

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    電力電子中的坐標變換詳解

    電力電子中的坐標變換詳解 clark變換&park變換
    發表于 02-17 15:28 ?0次下載

    卷積神經網絡的實現工具與框架

    卷積神經網絡因其圖像和視頻處理任務中的卓越性能而廣受歡迎。隨著深度學習技術的快速發展,多種實現工具和框架應運而生,為研究人員和開發者提供
    的頭像 發表于 11-15 15:20 ?363次閱讀

    卷積神經網絡的參數調整方法

    卷積神經網絡因其處理具有空間層次結構的數據時的卓越性能而受到青睞。然而,CNN的成功很大程度上依賴于其參數的合理設置。參數調整是一個復雜的過程,涉及到多個超參數的選擇和優化。
    的頭像 發表于 11-15 15:10 ?609次閱讀

    卷積神經網絡自然語言處理中的應用

    自然語言處理是人工智能領域的一個重要分支,致力于使計算機能夠理解、解釋和生成人類語言。隨著深度學習技術的發展,卷積神經網絡(CNNs)作為一種強大的模型,圖像識別和語音處理等領域取
    的頭像 發表于 11-15 14:58 ?390次閱讀

    傅里葉變換卷積定理的關系

    傅里葉變換卷積定理之間存在著密切的關系,這種關系信號處理、圖像處理等領域中具有重要的應用價值。 一、傅里葉變換卷積的基本概念 傅里葉
    的頭像 發表于 11-14 09:33 ?1028次閱讀

    卷積神經網絡共包括哪些層級

    卷積神經網絡(Convolutional Neural Network, CNN)是一種深度學習模型,廣泛應用于圖像識別、語音識別、自然語言處理等領域。它以卷積層為核心,通過多層卷積
    的頭像 發表于 07-11 15:58 ?1572次閱讀

    卷積神經網絡的基本概念、原理及特點

    的基本概念、原理、特點以及不同領域的應用情況。 一、卷積神經網絡的基本概念 卷積神經網絡是一種深度學習算法,
    的頭像 發表于 07-11 14:38 ?1556次閱讀

    卷積神經網絡的工作原理和應用

    卷積神經網絡(FCN)是深度學習領域中的一種特殊類型的神經網絡結構,尤其計算機視覺領域表現出色。通過全局平均池化或轉置
    的頭像 發表于 07-11 11:50 ?1370次閱讀

    卷積神經網絡的實現原理

    、訓練過程以及應用場景。 卷積神經網絡的基本原理 1.1 卷積操作 卷積神經網絡的核心是卷積操作
    的頭像 發表于 07-03 10:49 ?734次閱讀

    卷積神經網絡的基本結構和工作原理

    和工作原理。 1. 引言 深度學習領域,卷積神經網絡是一種非常重要的模型。通過模擬人類視覺系統,能夠自動學習圖像中的特征,從而實現對圖像的識別和分類。與傳統的機器學習方法相比,CN
    的頭像 發表于 07-03 09:38 ?1051次閱讀

    卷積神經網絡計算過程和步驟

    卷積層(Convolutional Layer) 卷積層是卷積神經網絡的核心組成部分,通過卷積
    的頭像 發表于 07-03 09:36 ?826次閱讀

    卷積神經網絡的原理與實現

    核心思想是通過卷積操作提取輸入數據的特征。與傳統的神經網絡不同,卷積神經網絡具有參數共享和局部連接的特點,這使得其處理圖像等高維數據時具有
    的頭像 發表于 07-02 16:47 ?795次閱讀

    卷積神經網絡的基本結構及其功能

    。 引言 深度學習是機器學習的一個分支,通過模擬人腦神經網絡的結構和功能,實現對數據的自動學習和特征提取。卷積神經網絡是深度學習中的一種重要模型,
    的頭像 發表于 07-02 14:45 ?2630次閱讀

    卷積神經網絡圖像識別中的應用

    卷積操作 卷積神經網絡的核心是卷積操作。卷積操作是一種數學運算,用于提取圖像中的局部特征。
    的頭像 發表于 07-02 14:28 ?1387次閱讀

    基于毫米波雷達的手勢識別神經網絡

    預處理后的信號輸入卷積神經網絡時域卷積網絡(CNNTCN)模型,提取時空特征,并通過分類評估識別性能。實驗結果表明,該方法
    發表于 05-23 12:12
    主站蜘蛛池模板: 在线观看亚洲一区 | 日本在线不卡一区二区 | 人人成人免费公开视频 | 午夜欧美精品 | 米奇色影院 | 最新日韩中文字幕 | 欧美视频不卡一区二区三区 | 国产亚洲精品激情都市 | 乱高h辣黄文np公交车 | 四虎影库在线播放 | 二区三区在线 | 美女丝袜长腿喷水gif动态图 | 亚洲 欧美 日韩 在线 中文字幕 | 天堂网站 | 高清不卡一区二区三区 | 在线播放真实国产乱子伦 | 男人j进女人j的一进一出视频 | 亚洲一区二区三区在线 | 国产成视频| 午夜在线视频网站 | 日本一本一道久久香蕉免费 | 精品在线一区二区 | 婷婷四房播客五月天 | 免费观看欧美成人1314色 | 国产18到20岁美女毛片 | 国产一区二区三区波多野吉衣 | 三级网站视频 | 国产乱理论片在线观看理论 | 欧美人与动欧交视频 | 一女被多男玩很肉很黄文 | 啪啪中文字幕 | 久久狠狠第一麻豆婷婷天天 | 久久免费精品 | 国产在线视频欧美亚综合 | 天堂网ww | 人人爽人人干 | 国产成人精品视频一区二区不卡 | 午夜啪啪片 | 西西人体大胆高清啪啪欧洲 | 欧美一级高清免费a | 91精品久久国产青草 |