91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微軟亞洲研究院的研究員們提出了一種模型壓縮的新思路

深度學(xué)習(xí)自然語言處理 ? 來源:微軟研究院AI頭條 ? 作者:微軟研究院AI頭條 ? 2020-11-24 09:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

編者按:深度學(xué)習(xí)的發(fā)展推動了很多大型神經(jīng)網(wǎng)絡(luò)模型的誕生,這些模型在多個領(lǐng)域中都取得了當(dāng)前最優(yōu)的性能,基于Transformer的預(yù)訓(xùn)練模型也在自然語言理解(NLU)和自然語言生成(NLG)領(lǐng)域中成為主流。然而,這些模型所包含的參數(shù)量巨大,計算成本高昂,極大地阻礙了此類模型在生產(chǎn)環(huán)境中的應(yīng)用。為了解決該問題,來自微軟亞洲研究院自然語言計算組的研究員們提出了一種模型壓縮的新思路。

隨著深度學(xué)習(xí)的流行,很多大型神經(jīng)網(wǎng)絡(luò)模型誕生,并在多個領(lǐng)域中取得當(dāng)前最優(yōu)的性能。尤其是在自然語言處理(NLP)領(lǐng)域中,預(yù)訓(xùn)練和調(diào)參已經(jīng)成為其中大多數(shù)任務(wù)的新范式。基于 Transformer 的預(yù)訓(xùn)練模型在自然語言理解(NLU)和自然語言生成(NLG)領(lǐng)域中成為主流。盡管這些模型從“過參數(shù)化”的特性中獲益,但它們往往包含數(shù)百萬甚至數(shù)十億個參數(shù),這就使得此類模型的計算成本高昂,且從內(nèi)存消耗和高延遲的角度來看計算低效。這一缺陷極大地阻礙了此類模型在生產(chǎn)環(huán)境中的應(yīng)用。

為了解決該問題,研究人員提出了很多神經(jīng)網(wǎng)絡(luò)壓縮技術(shù)。一般而言,這些技術(shù)可以分為三類:量化、權(quán)重剪枝和知識蒸餾(Knowledge Distillation)。其中,由于知識蒸餾能夠壓縮預(yù)訓(xùn)練語言模型,所以得到了極大關(guān)注。知識蒸餾利用大型教師模型“教”緊湊的學(xué)生模型模仿教師的行為,從而將教師模型中嵌入的知識遷移到較小的模型中。但是,學(xué)生模型的性能狀況取決于設(shè)計良好的蒸餾損失函數(shù),正是這個函數(shù)使得學(xué)生模型可以模仿教師的行為。近期關(guān)于知識蒸餾的研究甚至利用更復(fù)雜的模型特定蒸餾損失函數(shù),以實現(xiàn)更好的性能。

近日,來自微軟亞洲研究院自然語言計算組的研究員們提出了一種與顯式地利用蒸餾損失函數(shù)來最小化教師模型與學(xué)生模型距離的知識蒸餾不同的模型壓縮新方法。受到著名哲學(xué)思想實驗“忒修斯之船”的啟發(fā)(即如果船上的木頭逐漸被替換,直到所有的木頭都不是原來的木頭,那這艘船還是原來的那艘船嗎?),研究員們在 EMNLP 2020 上發(fā)表了 Theseus Compression for BERT (BERT-of-Theseus),該方法逐步將 BERT 的原始模塊替換成參數(shù)更少的替代模塊(點擊文末閱讀原文,了解論文詳情)。研究員們將原始模型叫做“前輩”(predecessor),將壓縮后的模型叫做“接替者”(successor),分別對應(yīng)知識蒸餾中的教師和學(xué)生。

該方法的工作流程如下圖所示。首先為每個前輩模塊指定一個接替者模塊,然后在訓(xùn)練階段中以一定的概率(如拋硬幣)決定是否用替代模塊隨機替換對應(yīng)的前輩模塊,并按照新舊模塊組合的方式繼續(xù)訓(xùn)練。在模型收斂后,將所有接替者模塊組合成接替者模型,進而執(zhí)行推斷。這樣就可以將大型前輩模型壓縮成緊湊的接替者模型了。

舉例來說,假設(shè)現(xiàn)在有兩支籃球隊每支各五人,一支是經(jīng)驗老道的全明星球隊,另一支則是年輕球員組成的青訓(xùn)隊。為了提高青訓(xùn)隊的水平,所以隨機選派青訓(xùn)隊員去替換掉全明星隊中的球員,然后讓這個混合的球隊不斷地練習(xí)、比賽。通過向前輩學(xué)習(xí)經(jīng)驗,新加入成員的實力會有所提升,也能學(xué)會和其他隊員的配合,逐漸的這個混合球隊就擁有了接近全明星球隊的實力。之后重復(fù)這個過程,直到青訓(xùn)隊員都被充分訓(xùn)練,最終青訓(xùn)隊員也能自己組成一支實力突出的球隊。相比之下,如果沒有“老司機”來帶一帶,青訓(xùn)隊無論如何訓(xùn)練,水平也不會達(dá)到全明星隊的實力。

事實上,Theseus 壓縮與知識蒸餾的思路有些類似,都是鼓勵壓縮模型模仿原始模型的行為,但 Theseus 壓縮有很多獨特的優(yōu)勢。

首先,Theseus 壓縮在壓縮過程中僅使用任務(wù)特定的損失函數(shù)。而基于知識蒸餾的方法除了使用任務(wù)特定的損失函數(shù)外,還需加入繁瑣的蒸餾損失函數(shù)作為優(yōu)化目標(biāo)。

其次,與近期研究 TinyBERT 等不同,Theseus 壓縮不使用Transformer 特定特征進行壓縮,這就為壓縮廣泛模型提供了可能性。與知識蒸餾僅使用原始模型執(zhí)行推斷不同,該方法允許前輩模型與壓縮后的接替者模型共同訓(xùn)練,從而實現(xiàn)更深層次的梯度級交互,并簡化訓(xùn)練過程。

此外,混合了前輩模塊和接替者模塊的不同模塊組合還添加了額外的正則化項(類似于 Dropout)。該方法基于課程學(xué)習(xí)(Curriculum Learning)方法來驅(qū)動模塊替換,將模塊替換概率從低到高逐漸增加,從而實現(xiàn)優(yōu)異的 BERT 壓縮性能。利用Theseus 壓縮方法壓縮得到的 BERT 模型運算速度是之前的1.94 倍,并且保留了原始模型超過98% 的性能,優(yōu)于其它基于知識蒸餾的壓縮的基線方法。

通過在預(yù)訓(xùn)練語言模型 BERT 上的成功實驗,微軟亞洲研究院的研究員們希望可以為模型壓縮打開一種全新的思路,并希望看到這一方法在計算機視覺等領(lǐng)域的更廣泛應(yīng)用。

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6685

    瀏覽量

    105753
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4814

    瀏覽量

    103601
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4381

    瀏覽量

    64865

原文標(biāo)題:【EMNLP2020】忒修斯之船啟發(fā)下的知識蒸餾新思路 - 微軟研究院

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    無刷直流電機雙閉環(huán)串級控制系統(tǒng)仿真研究

    Madlab進行BLDC建模仿真的方法,并且也提出了很多的建模仿真方案。例如有研究人員提出采用節(jié)點電流法對電機控制系統(tǒng)進行分析,通過列寫m函數(shù),建立BLDC控制系統(tǒng)真模型,這種方法實質(zhì)
    發(fā)表于 07-07 18:36

    導(dǎo)遠(yuǎn)科技與清華大學(xué)無錫應(yīng)用技術(shù)研究院達(dá)成合作

    近日,導(dǎo)遠(yuǎn)科技與清華大學(xué)無錫應(yīng)用技術(shù)研究院(以下簡稱:研究院)達(dá)成合作。導(dǎo)遠(yuǎn)科技將提供高精度定位產(chǎn)品及解決方案,以支持研究院在L4級自動駕駛和人形機器人領(lǐng)域的技術(shù)研發(fā)及轉(zhuǎn)化落地。
    的頭像 發(fā)表于 06-12 16:34 ?396次閱讀

    安徽省水利科學(xué)研究院攜手中科曙光完成DeepSeek大模型部署

    近日,安徽省(水利部淮河水利委員會)水利科學(xué)研究院攜手中科曙光,成功完成國產(chǎn)大模型DeepSeek、BGE-M3嵌入模型及重排模型的本地化部署與測試,并順利接入梅山水庫運行管理矩陣平臺
    的頭像 發(fā)表于 03-25 11:36 ?537次閱讀

    胡瀚接棒騰訊多模態(tài)大模型研發(fā)

    近日,前微軟亞洲研究院視覺計算組的首席研究員胡瀚宣布加入騰訊,這變動引起了業(yè)界的廣泛關(guān)注。據(jù)悉,胡瀚將接替已離職的騰訊混元大
    的頭像 發(fā)表于 01-09 15:49 ?731次閱讀

    浪潮信息與智源研究院攜手共建大模型多元算力生態(tài)

    近日,浪潮信息與北京智源人工智能研究院正式簽署戰(zhàn)略合作協(xié)議,雙方將緊密合作,共同構(gòu)建大模型多元算力開源創(chuàng)新生態(tài)。 此次合作旨在提升大模型創(chuàng)新研發(fā)的算力效率,降低大模型應(yīng)用開發(fā)的算力門檻
    的頭像 發(fā)表于 12-31 11:49 ?603次閱讀

    胡云華加盟智譜,擔(dān)任“智譜清言”負(fù)責(zé)人

    近日,前微軟亞洲研究院研究員、阿里巴巴達(dá)摩資深技術(shù)專家、支付寶中國首席數(shù)據(jù)官胡云華宣布加入大模型
    的頭像 發(fā)表于 12-28 14:30 ?795次閱讀

    安謀科技與智源研究院達(dá)成戰(zhàn)略合作,共建開源AI“芯”生態(tài)

    12月25日,安謀科技(中國)有限公司(以下簡稱“安謀科技”)與北京智源人工智能研究院(以下簡稱“智源研究院”)正式簽署戰(zhàn)略合作協(xié)議,雙方將面向多元AI芯片領(lǐng)域開展算子庫優(yōu)化與適配、編譯器與工具鏈
    發(fā)表于 12-26 17:06 ?414次閱讀
    安謀科技與智源<b class='flag-5'>研究院</b>達(dá)成戰(zhàn)略合作,共建開源AI“芯”生態(tài)

    清新電源研究院榮獲深圳市5A級社會組織

    12月18日,2024年度市級社會組織等級評估授牌儀式在深圳市福田區(qū)深科技城順利舉行。深圳市清新電源研究院作為2024年度深圳市5A級社會組織接受授牌。深圳市清新電源研究院黨支部書記、副院長楊洪青
    的頭像 發(fā)表于 12-18 19:37 ?831次閱讀
    清新電源<b class='flag-5'>研究院</b>榮獲深圳市5A級社會組織

    微軟在東京開設(shè)日本首個研究基地

    近日,微軟在東京正式啟用了其日本首個研究基地——微軟亞洲研究院東京分院。作為微軟在全球技術(shù)實驗室
    的頭像 發(fā)表于 11-19 16:26 ?613次閱讀

    天馬與武進南大未來技術(shù)創(chuàng)新研究院達(dá)成戰(zhàn)略合作

    近日,天馬新型顯示技術(shù)研究院(廈門)有限公司、上海天馬微電子有限公司與武進南大未來技術(shù)創(chuàng)新研究院就Micro LED業(yè)務(wù)、非顯傳感業(yè)務(wù)達(dá)成戰(zhàn)略合作。
    的頭像 發(fā)表于 11-14 11:53 ?759次閱讀

    商湯醫(yī)療與上海臨床創(chuàng)新轉(zhuǎn)化研究院簽署戰(zhàn)略合作協(xié)議

    近日, 商湯醫(yī)療與上海臨床創(chuàng)新轉(zhuǎn)化研究院(以下簡稱“臨轉(zhuǎn)院”)簽署戰(zhàn)略合作協(xié)議 。
    的頭像 發(fā)表于 11-07 14:45 ?878次閱讀

    藍(lán)思科技將新增昆山創(chuàng)新研究院,重點服務(wù)蘋果

    藍(lán)思科技近日宣布,將新增個重點研發(fā)機構(gòu),即藍(lán)思昆山創(chuàng)新研究院,目前正在緊鑼密鼓地建設(shè)中。該研究院的成立,標(biāo)志著藍(lán)思科技在研發(fā)領(lǐng)域的進步拓展和深化。
    的頭像 發(fā)表于 10-28 16:25 ?898次閱讀

    中國電信人工智能研究院完成首個全國產(chǎn)化萬卡萬參大模型訓(xùn)練

    近日,中國電信人工智能研究院宣布了項重大技術(shù)突破:成功完成國內(nèi)首個基于全國產(chǎn)化萬卡集群訓(xùn)練的萬億參數(shù)大模型
    的頭像 發(fā)表于 09-30 16:41 ?2051次閱讀

    開啟全新AI時代 智能嵌入式系統(tǒng)快速發(fā)展——“第六屆國產(chǎn)嵌入式操作系統(tǒng)技術(shù)與產(chǎn)業(yè)發(fā)展論壇”圓滿結(jié)束

    計算機學(xué)院牛建偉教授主持。 中科軟件所副所長、總工程師,武延軍研究員做了“AI大模型時代下的操作系統(tǒng)發(fā)展思考”主題演講。 武延軍介紹了操作系統(tǒng)的發(fā)展歷程,指出應(yīng)用的高速發(fā)展給操作系統(tǒng)帶來的算力和數(shù)
    發(fā)表于 08-30 17:24

    摩爾線程攜手智源研究院完成基于Triton的大模型算子庫適配

    近日,摩爾線程與北京智源人工智能研究院(簡稱:智源研究院)已順利完成基于Triton語言的高性能算子庫FlagGems的適配工作。得益于摩爾線程自研統(tǒng)系統(tǒng)計算架構(gòu)MUSA,雙方在短短
    的頭像 發(fā)表于 08-02 11:06 ?1431次閱讀
    主站蜘蛛池模板: 精品黄色录像 | 一级毛片免费在线观看网站 | 欧美在线一级视频 | 欧美sese| 免费午夜不卡毛片 | 国产黄大片在线观看 | 亚洲qingse中文久久网 | 日本色黄| 天天干天天草天天 | 亚洲怡红院在线观看 | 天堂中文在线免费观看 | 午夜大片男女免费观看爽爽爽尤物 | 午夜免费啪视频观看网站 | 久碰香蕉精品视频在线观看 | 亚洲成人在线网 | 成人在线视频网址 | 中国人黑人xxⅹ性猛 | 天天狠狠弄夜夜狠狠躁·太爽了 | 免费播放黄色 | 1024亚洲视频| 色播五月激情 | 国产免费啪啪 | 天天操天天插天天干 | 国产亚洲精品美女2020久久 | 亚洲午夜精品久久久久久人妖 | 午夜在线视频观看版 | 丝袜美腿一区 | 婷婷色九月综合激情丁香 | 日韩特黄 | 天天操操操操操操 | 神马午夜在线观看 | 久久综合九色综合97_ 久久久 | 国产成人精品男人的天堂538 | 韩国在线免费视频 | 男女交性高清视频无遮挡 | 可以免费看黄的网址 | 亚洲人成网站999久久久综合 | 久久狠狠干 | 黄色天堂| 日本a级片免费 | 2021年最热新版天堂资源中文 |