在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

麻省理工學院韓松團隊新突破:直接針對目標硬件平臺訓練專用的卷積神經網絡

電子工程師 ? 來源:lp ? 2019-04-04 10:46 ? 次閱讀

基于讓人工智能可快速大規模布建的需求,自動機器學習(AutoML)和神經網絡架構搜索(NAS,Neural Architecture Search)成為相當受到關注的新領域,NAS 旨在利用算法自動設計出神經網絡,優點是快速且高效,缺點則是需要大量的運算能力,成本昂貴。

麻省理工學院(MIT)電子工程和計算機科學系助理教授韓松與團隊人員蔡涵和朱力耕設計出的 NAS 算法—ProxylessNAS,可以直接針對目標硬件平臺訓練專用的卷積神經網絡(CNN),而且在 1000 類 ImageNet 大規模圖像數據集上直接搜索,僅需 200 個 GPU 小時,如此便能讓 NAS 算法能夠更廣泛的被運用。該論文將在 5 月舉辦的 ICLR(International Conference on Learning Representations)大會上發表。

(來源:Han Lab)

AutoML 是用以模型選擇、或是超參數優化的自動化方法,而 NAS 屬于 AutoML 概念下的一個領域,簡單來說,就是用“神經網絡來設計神經網絡”,一來好處是可以加速模型開發的進度,再者,NAS 開發的神經網絡可望比人類工程師設計的系統更加準確和高效,因此 AutoML 和 NAS 是達成 AI 普及化遠景的重要方法之一。

DeepTech 采訪了韓松,他表示,AutoML 是個很有前景的方向,架構搜索只是 AutoML 的一部分,它能自動化地找到一些過去人類探索不到的結構,反過來幫助人們設計高效的模型。然而,過去 NAS 算法的硬件效率有待提高:搜索過程需要很久的時間、而且搜出的模型的推理速度難以保證。NAS 和硬件結合,能帶來很多新的設計策略。

圖|ProxylessNAS為硬件定制專屬的高效神經網絡架構,不同硬件適合不同的模型。(來源: https://arxiv.org/pdf/1812.00332.pdf)

大幅減少計算成本

舉例來說,谷歌所開發的 NAS 算法,需要運行在 GPU 上 4.8 萬個小時,才能生成一個用來做圖像分類或檢測任務的 CNN。當然,谷歌擁有龐大的 GPU 數量和其他專用硬件的資源,這對許多其他人來說是遙不可及的方法。而這就是 MIT 研究人員希望解決 NAS 計算昂貴的問題。他們提出的 ProxylessNAS 算法,僅需 200 個 GPU 小時,就可以在 1000 類 ImageNet 的大規模圖像數據集上直接進行搜索,換算下來,比谷歌的 48,000 GPU 小時,快了 240 倍。而且,ProxylessNAS 可以針對特定的目標硬件平臺上定制專屬的深度學習模型,使其不僅準而且運行速度快。

“主要目標是實現人工智能在各種硬件平臺上的普及,在特定硬件上提供“一鍵加速”的解決方案,幫助 AI 專家和非 AI 專家、硬件專家和非硬件專家有效率地設計又準又快的神經網絡架構,”韓松說。同時,他也強調,NAS 算法永遠不會取代人類工程師,“目的是減輕設計和改進神經網絡架構所帶來的重復性和繁瑣的工作”。

圖|MIT 電子工程和計算機科學系助理教授韓松(來源:https://songhan.mit.edu/)

路徑級二值化和修剪

在該研究中,他們的做法是刪除非必要性的神經網絡設計組件,借此縮短計算時間、減少和內存開銷來運行 NAS 算法。另一項創新則是讓每個輸出的 CNN 在特定硬件平臺上(CPU、GPU 和移動設備)的運行效率比使用傳統方法所設計的模型來得快速。在測試中,研究人員的 CNN 在手機上的測量速度,比相似精度的 MobileNet-V2 快了 1.8 倍。

圖|硬件平臺上架構搜索過程 Demo (來源:韓松團隊)

CNN 能連接不同層(layer)的人工神經網路,受到大腦處理影像的視覺皮質(visual cortex)組織啟發,適合處理視覺方面的任務,是計算機視覺領域十分流行的架構。一個 CNN 架構是由多個可調整參數的計算層(稱為“過濾器”),以及這些過濾器之間可能的連接所組成。

這種連接方式多種多樣,由于可以選擇的架構數量(稱為“搜索空間”search space)非常龐大,所以想應用 NAS 在海量圖像數據集上創建一個神經網絡,計算量總是個很大的問題,所以工程師通常在較小的代理數據集上運行 NAS,再把將訓練好的 CNN 遷移到目標任務上,但是,這種方法降低模型的準確性,此外,把一樣的模型架構套用在所有的硬件平臺,也難以發揮各種硬件的最佳效率。

研究人員直接在 ImageNet 大型數據集上訓練和測試他們開發的新 NAS 算法,首先,他們創建一個搜索空間,包含了所有可能的 CNN“路徑”(路徑是指層和過濾器如何連接來處理數據),讓 NAS 算法可以自由尋找出一個最佳架構。

這種方法通常把所有可能的路徑存儲在內存中,如果用傳統的架構搜索辦法直接在千類 ImageNet 搜索,就會超過 GPU 內存的限制。為了解決此問題,研究人員利用了一種稱為“路徑級二值化”(path-level binarization)的技術,一次只在內存中存放一個采樣路徑,大幅節省內存的消耗。

接著,他們將這種二值化與“路徑級修剪”(path-level pruning)結合,通常該技術是用來學習神經網絡中有哪些神經元(neuron)可以被刪除,而且不會影響輸出。不過,研究人員 NAS 算法是采用修剪整個路徑以取代丟掉神經元,如此能夠完全改變神經網絡的架構。

在訓練過程中,所有路徑最初都被給予相同的選擇概率,然后,該算法跟蹤這些路徑,并記下輸出的準確性和損失,進而調整路徑的概率,借此優化準確性和效率。最后,該算法修剪掉所有低概率的路徑,僅保留最高概率的路徑,形成最終版的 CNN 架構。

圖|MIT News 報道韓松團隊新的神經網絡架構搜索算法(來源:MIT News)

為硬件定制網絡結構

另一項重要創新就是使 NAS 算法“hardware-aware”,也就是說,它會為一個硬件平臺量身定制專用的網絡結構,使得推理的延遲更低。

韓松解釋,hardware-aware 是指 NAS 搜出來的模型不僅準確率高,而且在硬件實測的速度也要快,使得搜出來的模型容易落地。然而,為了量測移動設備的模型推理延遲,大公司的作法是利用大量的手機來實測,成本很高;而 ProxylessNAS 則是給延遲建模,這樣可以讓延遲可導(make latency differentiable),便于對延遲進行端到端的優化,而且只要使用一臺手機,成本低、精度誤差小于 1 毫秒。

對于網絡中的每個所選層,算法利用上述的延遲預測模型來采樣,然后使用這些信息設計出一個快速運行的架構,同時實現高精度。在實驗中,研究人員的 CNN 在移動設備上的運行速度幾乎是現有 MobileNet-V2 模型的 2 倍。

韓松也提到一個有趣的結果,有些卷積核結構曾被誤以為效率太低,但在研究人員的測試中,這些架構在某些硬件上是高效的。

他指出,比如 7x7 這樣的大 卷積核最近幾年被比較少被人使用,因為 3 個 3x3 卷積核和 1 個 7x7 卷積核有同樣的感受野(receptive field),而 3 個 3x3 卷積核有 27 個權重,1 個 7x7 卷積核有 49 個權重,仿佛 7x7 不如 3 個 3x3 能讓模型更小。

但實際在 GPU 上 invoke kernel call 的代價很高,執行多個小型過濾器不如執行單個大型過濾器效率高,大的 kernel call 更適合 GPU 這樣并行度高的硬件。“所以在 GPU 上,ProxylessNAS 在較深的層自動選取了大量 7x7 的卷積核,這是很有意思的,”他說。

GPU 的并行運算特性能夠同時進行多個計算,因此,執行單個大型過濾器時,反而比處理多個小型過濾器更高效。“這打破了過去的想法”,“搜索空間越大,可以找到的內容就越多。你不知道某個東西是否會比過去人類經歷表現得更好,那就讓 AI 來探索,”韓松說。

他進一步指出,類似例子在量化中也有體現,如他們最近的工作 HAQ: Hardware-aware Automated Quantization (CVPR 19 oral paper) 發現,不同硬件,如邊緣設備(edge device)和云端設備(cloud device),對量化策略的偏好是不同的。不同層在不同硬件上所需的比特數也不一樣,有些層是計算受限,有些層是內存受限;在這樣大的設計空間,人類給每種網絡、每種硬件訂制專屬的量化策略費時費力,基于學習的策略可以做得更好。

他認為,這也說明研究 specialization 和 domain-specific hardware architecture 的重要性。最近越來越多好的深度學習工作都是算力推動的,比如用于自然語言預訓練的 Bert。很多場景落地也需要低功耗的硬件支持,比如端上智能和 AIoT。所以未來算法和算力的協同研究是值得關注的方向。

幫助人類減輕做瑣事或工作的負擔,一直是大家對 AI 的期望。這也就是為什么 AutoML 和 NAS 受到重視的原因之一,所以如果要讓 NAS 普及,除了克服上述的計算成本高之外,還有哪些需要一步改善的問題?面對這個提問,韓松給了兩個很明確的方向,一是設計空間(design space)的設計,目前的 NAS 性能好壞很大程度依賴設計空間的選取,這部分還有很多人為的經驗。二是對速度和資源的優化,為了讓 NAS 更容易在工業界落地,有兩個條件:搜索的過程占用的計算資源要低,搜索出的模型硬件效率要高——最終實現讓硬件效率和算法性能同步提升。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4785

    瀏覽量

    101273
  • 機器學習
    +關注

    關注

    66

    文章

    8453

    瀏覽量

    133152
  • 數據集
    +關注

    關注

    4

    文章

    1210

    瀏覽量

    24861

原文標題:麻省理工學院韓松團隊新突破:比傳統方法快240倍,讓神經網絡變"輕"、跑更快

文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    加州理工學院開發出超100GHz時鐘速度的全光計算機

    加州理工學院的研究人員取得重大突破,開發出一款能實現超過100GHz時鐘速度的全光計算機。 長期以來,電子計算機時鐘頻率在近20年停滯于5GHz左右。 而此次推出的全光計算機,通過基于端到端和全光學
    的頭像 發表于 01-23 10:32 ?160次閱讀

    麻省理工學院研發全新納米級3D晶體管,突破性能極限

    11月7日,有報道稱,美國麻省理工學院的研究團隊利用超薄半導體材料,成功開發出一種前所未有的納米級3D晶體管。這款晶體管被譽為迄今為止最小的3D晶體管,其性能與功能不僅與現有的硅基晶體管相當,甚至在某些方面還超越了后者。
    的頭像 發表于 11-07 13:43 ?467次閱讀

    麻省理工學院推出新型機器人訓練模型

    近日,據TechCrunch報道,麻省理工學院的研究團隊展示了一種創新的機器人訓練模型,該模型突破了傳統模仿學習方法的局限,不再依賴標準數據集,而是借鑒了大型語言模型(LLM)如GPT
    的頭像 發表于 11-04 14:56 ?572次閱讀

    美國佐治亞理工學院一行蒞臨達實智能調研

    近日,美國佐治亞理工學院“聚焦數據科學領域·深度探訪粵港澳大灣區”學生代表團來深交流。美國佐治亞理工學院(Georgia Institute of Technology)一行探訪了大灣區科技企業代表達實智能。
    的頭像 發表于 09-26 09:21 ?561次閱讀

    卷積神經網絡的實現原理

    訓練過程以及應用場景。 卷積神經網絡的基本原理 1.1 卷積操作 卷積神經網絡的核心是
    的頭像 發表于 07-03 10:49 ?692次閱讀

    bp神經網絡卷積神經網絡區別是什么

    結構、原理、應用場景等方面都存在一定的差異。以下是對這兩種神經網絡的比較: 基本結構 BP神經網絡是一種多層前饋神經網絡,由輸入層、隱藏層和輸出層組成。每個神經元之間通過權重連接,并通
    的頭像 發表于 07-03 10:12 ?1414次閱讀

    卷積神經網絡訓練的是什么

    訓練過程以及應用場景。 1. 卷積神經網絡的基本概念 1.1 卷積神經網絡的定義 卷積
    的頭像 發表于 07-03 09:15 ?555次閱讀

    卷積神經網絡的原理是什么

    基本概念、結構、訓練過程以及應用場景。 卷積神經網絡的基本概念 1.1 神經網絡 神經網絡是一種受人腦
    的頭像 發表于 07-02 14:44 ?843次閱讀

    卷積神經網絡的基本原理、結構及訓練過程

    訓練過程以及應用場景。 一、卷積神經網絡的基本原理 卷積運算 卷積運算是卷積
    的頭像 發表于 07-02 14:21 ?3119次閱讀

    麻省理工學院研發RoboGrocery系統,雜貨店自動化裝袋新篇章

    在科技日新月異的今天,自動化和智能化正逐漸滲透到我們生活的方方面面。近日,麻省理工學院計算機科學與人工智能實驗室(CSAIL)的一項創新技術引起了廣泛關注——RoboGrocery系統,該系統將計算機視覺與軟機器人夾持器技術相結合,為雜貨店自動化裝袋過程帶來了新的可能性。
    的頭像 發表于 07-01 16:49 ?666次閱讀

    感謝東莞理工學院對我司導熱系數測試儀的認可

    東莞理工學院作為國內的高等學府,一直致力于科學研究和教育事業的發展,能夠得到這樣一所學府的認可,無疑是對我們技術實力和產品質量的肯定。這份認可,如同春日里的一縷陽光,溫暖而明亮,照亮了我們前行的道路
    的頭像 發表于 06-25 09:55 ?300次閱讀
    感謝東莞<b class='flag-5'>理工學院</b>對我司導熱系數測試儀的認可

    麻省理工與Adobe新技術DMD提升圖像生成速度

    2023年3月27日,據傳,新型文生圖算法雖然使得圖像生成無比逼真,但奈何運行速度較慢。近期,美國麻省理工學院聯合Adobe推出新型DMD方法,僅略微犧牲圖像質量就大幅度提高圖像生成效率。
    的頭像 發表于 03-27 14:17 ?589次閱讀

    霍尼韋爾與南方泵業開展戰略合作,四川成都一家紅外熱成像專用圖像處理芯片服務商完成A+輪融資

    傳感新品 【麻省理工學院:研發出自供電傳感器,可從環境中獲取能量】 3 月 4 日消息,來自美國頂尖學府之一麻省理工學院的研究人員發明了一種無需電池、自供電,且不產生污染的傳感器。 研究團隊負責人
    的頭像 發表于 03-14 08:42 ?780次閱讀
    霍尼韋爾與南方泵業開展戰略合作,四川成都一家紅外熱成像<b class='flag-5'>專用</b>圖像處理芯片服務商完成A+輪融資

    瑞士蘇黎世聯邦理工學院新型四足機器人單腿完成開關門、移動任務

    據本周五出版的Popular Science雜志報道,近日瑞士蘇黎世聯邦理工學院機器人系統實驗室的科研團隊展示了新研究進展:他們訓練了自家的機器狗,讓其用單腿操控門鎖和移動物品,同時依靠其余三腿維持正常行走及平衡。
    的頭像 發表于 02-25 11:55 ?788次閱讀

    麻省理工學院開發出新的RFID標簽防篡改技術

    的解決方案。 麻省理工學院的研究人員推出了一項革命性的發明——新型防篡改ID標簽。它不僅尺寸小巧、成本低廉,而且具備強大的防偽功能,有望徹底改變商品真偽鑒定的格局。 研究人員巧妙地利用太赫茲波的特性,設計出了這種新型防篡改
    的頭像 發表于 02-22 11:30 ?679次閱讀
    <b class='flag-5'>麻省理工學院</b>開發出新的RFID標簽防篡改技術
    主站蜘蛛池模板: 欧美一级黄视频 | 女性一级全黄生活片免费看 | 久久偷窥视频 | 免费看你懂的 | 韩国中文字幕在线观看 | 天天摸夜夜添狠狠添2018 | 国产剧情麻豆三级在线观看 | 久久精品国波多野结衣 | 天堂网中文字幕 | 黄色软件合集 | 欧美xxxx性高清 | 九九热在线视频观看这里只有精品 | 又长又大又粗又硬3p免费视频 | 奇米影视四色首页手机在线 | 国产午夜三区视频在线 | 亚洲成a人片777777久久 | www.狠狠干| 国产jzjzjz免费大全视频 | 天堂网www在线资源网 | 白嫩美女一级高清毛片免费看 | 九九久久久久午夜精选 | 一区二区三区四区无限乱码在线观看 | 口述他拿舌头进去我下面好爽 | xxx日本69hd| 免费黄色福利 | 欧美系列在线 | 狂野欧美激情性xxxx | 午夜免费福利片观看 | 最近在线视频免费观看2019 | 成人性色生活片免费看爆迷你毛片 | 国模私拍一区二区三区 | 一女被多男玩很肉很黄文 | 黄网站在线观看永久免费 | 亚洲国产福利精品一区二区 | 色天使色护士 在线视频观看 | baoyu污污网站入口免费 | 男男gay污小黄文 | 国产精品三级视频 | 手机在线小视频 | 日本a级影院 | 视频在线观看免费网站 |