在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

微軟亞洲研究院的研究員們提出了一種模型壓縮的新思路

深度學習自然語言處理 ? 來源:微軟研究院AI頭條 ? 作者:微軟研究院AI頭條 ? 2020-11-24 09:48 ? 次閱讀

編者按:深度學習的發展推動了很多大型神經網絡模型的誕生,這些模型在多個領域中都取得了當前最優的性能,基于Transformer的預訓練模型也在自然語言理解(NLU)和自然語言生成(NLG)領域中成為主流。然而,這些模型所包含的參數量巨大,計算成本高昂,極大地阻礙了此類模型在生產環境中的應用。為了解決該問題,來自微軟亞洲研究院自然語言計算組的研究員們提出了一種模型壓縮的新思路。

隨著深度學習的流行,很多大型神經網絡模型誕生,并在多個領域中取得當前最優的性能。尤其是在自然語言處理(NLP)領域中,預訓練和調參已經成為其中大多數任務的新范式。基于 Transformer 的預訓練模型在自然語言理解(NLU)和自然語言生成(NLG)領域中成為主流。盡管這些模型從“過參數化”的特性中獲益,但它們往往包含數百萬甚至數十億個參數,這就使得此類模型的計算成本高昂,且從內存消耗和高延遲的角度來看計算低效。這一缺陷極大地阻礙了此類模型在生產環境中的應用。

為了解決該問題,研究人員提出了很多神經網絡壓縮技術。一般而言,這些技術可以分為三類:量化、權重剪枝和知識蒸餾(Knowledge Distillation)。其中,由于知識蒸餾能夠壓縮預訓練語言模型,所以得到了極大關注。知識蒸餾利用大型教師模型“教”緊湊的學生模型模仿教師的行為,從而將教師模型中嵌入的知識遷移到較小的模型中。但是,學生模型的性能狀況取決于設計良好的蒸餾損失函數,正是這個函數使得學生模型可以模仿教師的行為。近期關于知識蒸餾的研究甚至利用更復雜的模型特定蒸餾損失函數,以實現更好的性能。

近日,來自微軟亞洲研究院自然語言計算組的研究員們提出了一種與顯式地利用蒸餾損失函數來最小化教師模型與學生模型距離的知識蒸餾不同的模型壓縮新方法。受到著名哲學思想實驗“忒修斯之船”的啟發(即如果船上的木頭逐漸被替換,直到所有的木頭都不是原來的木頭,那這艘船還是原來的那艘船嗎?),研究員們在 EMNLP 2020 上發表了 Theseus Compression for BERT (BERT-of-Theseus),該方法逐步將 BERT 的原始模塊替換成參數更少的替代模塊(點擊文末閱讀原文,了解論文詳情)。研究員們將原始模型叫做“前輩”(predecessor),將壓縮后的模型叫做“接替者”(successor),分別對應知識蒸餾中的教師和學生。

該方法的工作流程如下圖所示。首先為每個前輩模塊指定一個接替者模塊,然后在訓練階段中以一定的概率(如拋硬幣)決定是否用替代模塊隨機替換對應的前輩模塊,并按照新舊模塊組合的方式繼續訓練。在模型收斂后,將所有接替者模塊組合成接替者模型,進而執行推斷。這樣就可以將大型前輩模型壓縮成緊湊的接替者模型了。

舉例來說,假設現在有兩支籃球隊每支各五人,一支是經驗老道的全明星球隊,另一支則是年輕球員組成的青訓隊。為了提高青訓隊的水平,所以隨機選派青訓隊員去替換掉全明星隊中的球員,然后讓這個混合的球隊不斷地練習、比賽。通過向前輩學習經驗,新加入成員的實力會有所提升,也能學會和其他隊員的配合,逐漸的這個混合球隊就擁有了接近全明星球隊的實力。之后重復這個過程,直到青訓隊員都被充分訓練,最終青訓隊員也能自己組成一支實力突出的球隊。相比之下,如果沒有“老司機”來帶一帶,青訓隊無論如何訓練,水平也不會達到全明星隊的實力。

事實上,Theseus 壓縮與知識蒸餾的思路有些類似,都是鼓勵壓縮模型模仿原始模型的行為,但 Theseus 壓縮有很多獨特的優勢。

首先,Theseus 壓縮在壓縮過程中僅使用任務特定的損失函數。而基于知識蒸餾的方法除了使用任務特定的損失函數外,還需加入繁瑣的蒸餾損失函數作為優化目標。

其次,與近期研究 TinyBERT 等不同,Theseus 壓縮不使用Transformer 特定特征進行壓縮,這就為壓縮廣泛模型提供了可能性。與知識蒸餾僅使用原始模型執行推斷不同,該方法允許前輩模型與壓縮后的接替者模型共同訓練,從而實現更深層次的梯度級交互,并簡化訓練過程。

此外,混合了前輩模塊和接替者模塊的不同模塊組合還添加了額外的正則化項(類似于 Dropout)。該方法基于課程學習(Curriculum Learning)方法來驅動模塊替換,將模塊替換概率從低到高逐漸增加,從而實現優異的 BERT 壓縮性能。利用Theseus 壓縮方法壓縮得到的 BERT 模型運算速度是之前的1.94 倍,并且保留了原始模型超過98% 的性能,優于其它基于知識蒸餾的壓縮的基線方法。

通過在預訓練語言模型 BERT 上的成功實驗,微軟亞洲研究院的研究員們希望可以為模型壓縮打開一種全新的思路,并希望看到這一方法在計算機視覺等領域的更廣泛應用。

責任編輯:lq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 微軟
    +關注

    關注

    4

    文章

    6630

    瀏覽量

    104473
  • 神經網絡
    +關注

    關注

    42

    文章

    4781

    瀏覽量

    101176
  • 函數
    +關注

    關注

    3

    文章

    4346

    瀏覽量

    62977

原文標題:【EMNLP2020】忒修斯之船啟發下的知識蒸餾新思路 - 微軟研究院

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    胡瀚接棒騰訊多模態大模型研發

    近日,前微軟亞洲研究院視覺計算組的首席研究員胡瀚宣布加入騰訊,這變動引起了業界的廣泛關注。據悉,胡瀚將接替已離職的騰訊混元大
    的頭像 發表于 01-09 15:49 ?418次閱讀

    浪潮信息與智源研究院攜手共建大模型多元算力生態

    近日,浪潮信息與北京智源人工智能研究院正式簽署戰略合作協議,雙方將緊密合作,共同構建大模型多元算力開源創新生態。 此次合作旨在提升大模型創新研發的算力效率,降低大模型應用開發的算力門檻
    的頭像 發表于 12-31 11:49 ?296次閱讀

    胡云華加盟智譜,擔任“智譜清言”負責人

    近日,前微軟亞洲研究院研究員、阿里巴巴達摩資深技術專家、支付寶中國首席數據官胡云華宣布加入大模型
    的頭像 發表于 12-28 14:30 ?309次閱讀

    安謀科技與智源研究院達成戰略合作,共建開源AI“芯”生態

    12月25日,安謀科技(中國)有限公司(以下簡稱“安謀科技”)與北京智源人工智能研究院(以下簡稱“智源研究院”)正式簽署戰略合作協議,雙方將面向多元AI芯片領域開展算子庫優化與適配、編譯器與工具鏈
    發表于 12-26 17:06 ?220次閱讀
    安謀科技與智源<b class='flag-5'>研究院</b>達成戰略合作,共建開源AI“芯”生態

    微軟在東京開設日本首個研究基地

    近日,微軟在東京正式啟用了其日本首個研究基地——微軟亞洲研究院東京分院。作為微軟在全球技術實驗室
    的頭像 發表于 11-19 16:26 ?307次閱讀

    藍思科技將新增昆山創新研究院,重點服務蘋果

    藍思科技近日宣布,將新增個重點研發機構,即藍思昆山創新研究院,目前正在緊鑼密鼓地建設中。該研究院的成立,標志著藍思科技在研發領域的進步拓展和深化。
    的頭像 發表于 10-28 16:25 ?394次閱讀

    中國電信人工智能研究院完成首個全國產化萬卡萬參大模型訓練

    近日,中國電信人工智能研究院宣布了項重大技術突破:成功完成國內首個基于全國產化萬卡集群訓練的萬億參數大模型。
    的頭像 發表于 09-30 16:41 ?1773次閱讀

    摩爾線程攜手智源研究院完成基于Triton的大模型算子庫適配

    近日,摩爾線程與北京智源人工智能研究院(簡稱:智源研究院)已順利完成基于Triton語言的高性能算子庫FlagGems的適配工作。得益于摩爾線程自研統系統計算架構MUSA,雙方在短短
    的頭像 發表于 08-02 11:06 ?974次閱讀

    香港城市大學與富士康鴻海研究院成立聯合研究中心

    來源:富士康 香港城市大學(城大)與鴻??萍技瘓F(富士康)旗下的鴻海研究院共同成立了 "富士康-城大聯合研究中心"。該中心旨在結合產學界的科研力量,推動人工智能、半導體、下代通訊、信息安全和量子
    的頭像 發表于 06-21 14:37 ?500次閱讀
    香港城市大學與富士康鴻海<b class='flag-5'>研究院</b>成立聯合<b class='flag-5'>研究</b>中心

    長沙北斗研究院總部基地正式奠基

    長沙北斗研究院總部基地正式奠基 日前長沙北斗研究院總部基地正式奠基,項目由長沙北斗研究院牽頭建設;項目又名“北斗足跡”。項目期預計2025年年底前建成投用。 據悉,長沙北斗
    的頭像 發表于 05-16 12:49 ?1267次閱讀

    航天宏圖與天儀研究院合作共同推動遙感衛星數據應用創新

    近日,航天宏圖信息技術股份有限公司(以下簡稱“航天宏圖”)與長沙天儀空間科技研究院有限公司(以下簡稱“天儀研究院”)正式簽署戰略合作框架協議。
    的頭像 發表于 04-23 17:11 ?647次閱讀
    航天宏圖與天儀<b class='flag-5'>研究院</b>合作共同推動遙感衛星數據應用創新

    微軟亞洲研究院發布VASA-1模型,實現圖片人物自動言語表達

    模型,尤其擅長展現逼真的面部表情及各類情緒,且嘴唇動作高度擬真。然而,盡管研究員坦承目前仍有不足之處,如無法精準處理頭發等纖維質元素,但相較于其他類似模型,VASA-1 的表現已屬優異。
    的頭像 發表于 04-19 11:21 ?559次閱讀

    本源入榜胡潤研究院2024全球獨角獸榜單!

    4月9日,胡潤研究院于廣州發布《2024全球獨角獸榜》,榜單列出了全球成立于2000年之后,價值10億美元以上的非上市公司。本源量子成功入圍該榜單,也是中國量子計算領域唯入榜企業。來源:胡潤
    的頭像 發表于 04-12 08:22 ?525次閱讀
    本源入榜胡潤<b class='flag-5'>研究院</b>2024全球獨角獸榜單!

    依托廣立微建設的浙江省集成電路EDA技術重點企業研究院正式掛牌

    近日,依托廣立微建設的浙江省集成電路 EDA 技術重點企業研究院正式掛牌,成為目前浙江EDA領域唯的省級重點企業研究院。
    的頭像 發表于 04-03 10:14 ?703次閱讀
    依托廣立微建設的浙江省集成電路EDA技術重點企業<b class='flag-5'>研究院</b>正式掛牌

    浙江圖靈算力研究院向知存科技頒發“年度最具影響力企業獎”

    近日,浙江圖靈算力研究院生態伙伴聯誼會在杭州舉行,知存科技作為研究院生態企業之,與賽迪研究院、中科計算所、自動化所和中國RISC-V聯盟
    的頭像 發表于 03-06 14:02 ?899次閱讀
    主站蜘蛛池模板: 男男生子大肚play做到生 | 又黄又湿又爽吸乳视频 | 18岁女人毛片 | 好吊妞视频988在线播放 | 天天看天天射天天碰 | 天堂看动漫 | 99久久精品费精品国产一区二 | 小泽玛利亚在线观看123 | 日本h视频在线 | 日本不卡视频在线播放 | 高清不卡免费一区二区三区 | 午夜综合网 | 美女视频毛片 | 成人免费无毒在线观看网站 | 久久精品国产亚洲aa | 亚欧美视频 | 四虎影永久在线观看网址 | 色妞网| 色先峰 | 绝色村妇的泛滥春情 | www.亚洲5555.com | 欧美奇米| 亚州国产精品精华液 | 天堂网2021天堂手机版 | 亚洲视频你懂的 | 日本视频黄色 | 天堂最新版 | 欧美亚洲h在线一区二区 | 久久鲁视频 | h视频在线免费观看 | 222www免费观看 | 国产欧美日韩视频免费61794 | 极品国产一区二区三区 | 天天爱添天天爱添天天爱添 | 操操操天天操 | 四虎伦理 | 亚洲国产精品久久久久婷婷老年 | bl 高h文| a级精品九九九大片免费看 a级毛毛片看久久 | 亚洲一区二区免费视频 | 俄罗斯女人69xxx |