在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Swin Transformer在MIM中的應(yīng)用

OpenCV學(xué)堂 ? 來(lái)源:量子位 ? 作者:量子位 ? 2022-05-31 10:15 ? 次閱讀

自何愷明MAE橫空出世以來(lái),MIM(Masked Image Modeling)這一自監(jiān)督預(yù)訓(xùn)練表征越來(lái)越引發(fā)關(guān)注。

但與此同時(shí), 研究人員也不得不思考它的局限性。

MAE論文中只嘗試了使用原版ViT架構(gòu)作為編碼器,而表現(xiàn)更好的分層設(shè)計(jì)結(jié)構(gòu)(以Swin Transformer為代表),并不能直接用上MAE方法。

于是,一場(chǎng)整合的范式就此在研究團(tuán)隊(duì)中上演。

代表工作之一是來(lái)自清華、微軟亞研院以及西安交大提出SimMIM,它探索了Swin Transformer在MIM中的應(yīng)用。

但與MAE相比,它在可見(jiàn)和掩碼圖塊均有操作,且計(jì)算量過(guò)大。有研究人員發(fā)現(xiàn),即便是SimMIM的基本尺寸模型,也無(wú)法在一臺(tái)配置8個(gè)32GB GPU的機(jī)器上完成訓(xùn)練。

基于這樣的背景,東京大學(xué)&商湯&悉尼大學(xué)的研究員,提供一個(gè)新思路。

cf3dbdfe-e030-11ec-ba43-dac502259ad0.png

不光將Swin Transformer整合到了MAE框架上,既有與SimMIM相當(dāng)?shù)娜蝿?wù)表現(xiàn),還保證了計(jì)算效率和性能——

將分層ViT的訓(xùn)練速度提高2.7倍,GPU內(nèi)存使用量減少70%。

來(lái)康康這是一項(xiàng)什么研究?

當(dāng)分層設(shè)計(jì)引入MAE

這篇論文提出了一種面向MIM的綠色分層視覺(jué)Transformer。

即允許分層ViT丟棄掩碼圖塊,只對(duì)可見(jiàn)圖塊進(jìn)行操作。

cf59a7ee-e030-11ec-ba43-dac502259ad0.png

具體實(shí)現(xiàn),由兩個(gè)關(guān)鍵部分組成。

首先,設(shè)計(jì)了一種基于分治策略的群體窗口注意力方案。

將具有不同數(shù)量可見(jiàn)圖塊的局部窗口聚集成幾個(gè)大小相等的組,然后在每組內(nèi)進(jìn)行掩碼自注意力。

cf7baa60-e030-11ec-ba43-dac502259ad0.png

其次,把上述分組任務(wù)視為有約束動(dòng)態(tài)規(guī)劃問(wèn)題,受貪心算法的啟發(fā)提出了一種分組算法。

cf9d5566-e030-11ec-ba43-dac502259ad0.png

它可以自適應(yīng)選擇最佳分組大小,并將局部窗口分成最少的一組,從而使分組圖塊上的注意力整體計(jì)算成本最小。

表現(xiàn)相當(dāng),訓(xùn)練時(shí)間大大減少

結(jié)果顯示,在ImageNet-1K和MS-COCO數(shù)據(jù)集上實(shí)驗(yàn)評(píng)估表明,與基線SimMIM性能相當(dāng)?shù)耐瑫r(shí),效率提升2倍以上。

cfbce552-e030-11ec-ba43-dac502259ad0.png

而跟SimMIM相比,這一方法在所需訓(xùn)練時(shí)間大大減少,消耗GPU內(nèi)存也小得多。具體而言,在相同的訓(xùn)練次數(shù)下,在Swin-B上提高2倍的速度和減少60%的內(nèi)存。

d00b726c-e030-11ec-ba43-dac502259ad0.png

值得一提的是,該研究團(tuán)隊(duì)在有8個(gè)32GB V100 GPU的單機(jī)上進(jìn)行評(píng)估的,而SimMIM是在2或4臺(tái)機(jī)器上進(jìn)行評(píng)估。

研究人員還發(fā)現(xiàn),效率的提高隨著Swin-L的增大而變大,例如,與SimMIM192相比,速度提高了2.7倍。

實(shí)驗(yàn)的最后,提到了算法的局限性。其中之一就是需要分層次掩碼來(lái)達(dá)到最佳的效率,限制了更廣泛的應(yīng)用。這一點(diǎn)就交給未來(lái)的研究。

d050031e-e030-11ec-ba43-dac502259ad0.png

而談到這一研究的影響性,研究人員表示,主要就是減輕了MIM的計(jì)算負(fù)擔(dān),提高了MIM的效率和有效性。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3782

    瀏覽量

    137424
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1223

    瀏覽量

    25317

原文標(biāo)題:何愷明MAE局限性被打破,與Swin Transformer結(jié)合,訓(xùn)練速度大大提升 | 東大&商湯&悉大

文章出處:【微信號(hào):CVSCHOOL,微信公眾號(hào):OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    Transformer架構(gòu)編碼器的工作流程

    編碼器是Transformer體系結(jié)構(gòu)的基本組件。編碼器的主要功能是將輸入標(biāo)記轉(zhuǎn)換為上下文表示。與早期獨(dú)立處理token的模型不同,Transformer編碼器根據(jù)整個(gè)序列捕獲每個(gè)token的上下文。
    的頭像 發(fā)表于 06-10 14:27 ?164次閱讀
    <b class='flag-5'>Transformer</b>架構(gòu)<b class='flag-5'>中</b>編碼器的工作流程

    Transformer架構(gòu)概述

    由于Transformer模型的出現(xiàn)和快速發(fā)展,深度學(xué)習(xí)領(lǐng)域正在經(jīng)歷一場(chǎng)翻天覆地的變化。這些突破性的架構(gòu)不僅重新定義了自然語(yǔ)言處理(NLP)的標(biāo)準(zhǔn),而且拓寬了視野,徹底改變了AI的許多方面。
    的頭像 發(fā)表于 06-10 14:24 ?193次閱讀
    <b class='flag-5'>Transformer</b>架構(gòu)概述

    如何使用MATLAB構(gòu)建Transformer模型

    Transformer 模型 2017 年由 Vaswani 等人在論文《Attentionis All You Need》首次提出。其設(shè)計(jì)初衷是為了解決自然語(yǔ)言處理(Nature
    的頭像 發(fā)表于 02-06 10:21 ?3728次閱讀
    如何使用MATLAB構(gòu)建<b class='flag-5'>Transformer</b>模型

    transformer專用ASIC芯片Sohu說(shuō)明

    2022年,我們打賭說(shuō)transformer會(huì)統(tǒng)治世界。 我們花了兩年時(shí)間打造Sohu,這是世界上第一個(gè)用于transformer(ChatGPT的“T”)的專用芯片。 將transform
    的頭像 發(fā)表于 01-06 09:13 ?1045次閱讀
    <b class='flag-5'>transformer</b>專用ASIC芯片Sohu說(shuō)明

    Transformer是機(jī)器人技術(shù)的基礎(chǔ)嗎

    生成式預(yù)訓(xùn)練Transformer(GPT)被吹捧為將徹底改變機(jī)器人技術(shù)。但實(shí)際應(yīng)用,GPT需要龐大且昂貴的計(jì)算資源、冗長(zhǎng)的訓(xùn)練時(shí)間以及(通常)非機(jī)載無(wú)線控制,諸多限制之下,GPT技術(shù)真的
    的頭像 發(fā)表于 12-05 10:54 ?621次閱讀
    <b class='flag-5'>Transformer</b>是機(jī)器人技術(shù)的基礎(chǔ)嗎

    Transformer模型的具體應(yīng)用

    如果想在 AI 領(lǐng)域引領(lǐng)一輪新浪潮,就需要使用到 Transformer
    的頭像 發(fā)表于 11-20 09:28 ?1484次閱讀
    <b class='flag-5'>Transformer</b>模型的具體應(yīng)用

    Transformer模型能夠做什么

    盡管名為 Transformer,但它們不是電視銀幕上的變形金剛,也不是電線桿上垃圾桶大小的變壓器。
    的頭像 發(fā)表于 11-20 09:27 ?920次閱讀
    <b class='flag-5'>Transformer</b>模型能夠做什么

    自動(dòng)駕駛中一直說(shuō)的BEV+Transformer到底是個(gè)啥?

    很多車企的自動(dòng)駕駛介紹,都會(huì)聽(tīng)到一個(gè)關(guān)鍵技術(shù),那就是BEV+Transformer,那BEV+Transformer到底是個(gè)啥?為什么很多車企
    的頭像 發(fā)表于 11-07 11:19 ?1281次閱讀
    自動(dòng)駕駛中一直說(shuō)的BEV+<b class='flag-5'>Transformer</b>到底是個(gè)啥?

    英偉達(dá)推出歸一化Transformer,革命性提升LLM訓(xùn)練速度

    了新的突破。 相較于傳統(tǒng)的Transformer架構(gòu),nGPT保持原有精度的同時(shí),直接將大型語(yǔ)言模型(LLM)的訓(xùn)練速度提升了高達(dá)20倍。這一顯著的性能提升,無(wú)疑將極大地推動(dòng)AI技術(shù)的發(fā)展和應(yīng)用。 nGPT
    的頭像 發(fā)表于 10-23 11:30 ?832次閱讀

    Transformer能代替圖神經(jīng)網(wǎng)絡(luò)嗎

    Transformer作為一種處理序列數(shù)據(jù)方面表現(xiàn)出色的深度學(xué)習(xí)模型,自其提出以來(lái),已經(jīng)自然語(yǔ)言處理(NLP)、時(shí)間序列分析等領(lǐng)域取得了顯著的成果。然而,關(guān)于Transformer
    的頭像 發(fā)表于 07-12 14:07 ?844次閱讀

    Transformer語(yǔ)言模型簡(jiǎn)介與實(shí)現(xiàn)過(guò)程

    自然語(yǔ)言處理(NLP)領(lǐng)域,Transformer模型以其卓越的性能和廣泛的應(yīng)用前景,成為了近年來(lái)最引人注目的技術(shù)之一。Transformer模型由谷歌2017年提出,并首次應(yīng)用于
    的頭像 發(fā)表于 07-10 11:48 ?2887次閱讀

    Transformer架構(gòu)自然語(yǔ)言處理的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,自然語(yǔ)言處理(NLP)領(lǐng)域取得了顯著的進(jìn)步。其中,Transformer架構(gòu)的提出,為NLP領(lǐng)域帶來(lái)了革命性的變革。本文將深入探討Transformer架構(gòu)的核心思想、組成部分以及自然語(yǔ)言處理領(lǐng)域的
    的頭像 發(fā)表于 07-09 11:42 ?1546次閱讀

    Transformer模型語(yǔ)音識(shí)別和語(yǔ)音生成的應(yīng)用優(yōu)勢(shì)

    自然語(yǔ)言處理、語(yǔ)音識(shí)別、語(yǔ)音生成等多個(gè)領(lǐng)域展現(xiàn)出強(qiáng)大的潛力和廣泛的應(yīng)用前景。本文將從Transformer模型的基本原理出發(fā),深入探討其語(yǔ)音識(shí)別和語(yǔ)音生成的應(yīng)用優(yōu)勢(shì),并展望其未來(lái)發(fā)展趨勢(shì)。
    的頭像 發(fā)表于 07-03 18:24 ?2077次閱讀

    使用PyTorch搭建Transformer模型

    Transformer模型自其問(wèn)世以來(lái),自然語(yǔ)言處理(NLP)領(lǐng)域取得了巨大的成功,并成為了許多先進(jìn)模型(如BERT、GPT等)的基礎(chǔ)。本文將深入解讀如何使用PyTorch框架搭建Transformer模型,包括模型的結(jié)構(gòu)、訓(xùn)
    的頭像 發(fā)表于 07-02 11:41 ?2507次閱讀

    Transformer 能代替圖神經(jīng)網(wǎng)絡(luò)嗎?

    當(dāng)Transformer模型發(fā)布時(shí),它徹底革新了機(jī)器翻譯領(lǐng)域。雖然最初是為特定任務(wù)設(shè)計(jì)的,但這種革命性的架構(gòu)顯示出它可以輕松適應(yīng)不同的任務(wù)。隨后成為了Transformer一個(gè)標(biāo)準(zhǔn),甚至用于它最
    的頭像 發(fā)表于 07-02 08:27 ?531次閱讀
    <b class='flag-5'>Transformer</b> 能代替圖神經(jīng)網(wǎng)絡(luò)嗎?
    主站蜘蛛池模板: 亚洲一区二区三区高清视频 | 久久99久久精品国产99热 | 四虎永久在线精品国产免费 | 电影天堂bt | 萌白酱一线天粉嫩喷水在线观看 | 高清不卡一区 | 夜夜骑天天操 | 欧洲三级网站 | 天天做天天爱天天做天天吃中 | 手机看片日韩高清1024 | 亚洲男人天堂2020 | 99色视频在线观看 | 国模无水印一区二区三区 | 狠狠操狠狠干 | 午夜在线观看视频在线播放版 | 免费亚洲一区 | 色色色色色网 | 久久精品草| 午夜想想爱午夜剧场 | nxgx欧美| 日本在线视频www色 日本在线视频精品 | 上课被同桌强行摸下面小黄文 | 欧美αv| 国产乱子伦 | 老湿司午夜爽爽影院榴莲视频 | 三级毛片免费观看 | 欧美黄视频在线观看 | 成人欧美一区二区三区黑人免费 | 欧美亚洲综合另类成人 | 天天做人人爱夜夜爽2020 | 好爽好黄的视频 | 亚洲综合狠狠 | 人人人人凹人人爽人人澡 | 日本色片视频 | 2021国产成人精品国产 | 在线免费观看毛片网站 | 人人玩人人添天天爽 | 日韩三级在线免费观看 | 超h高h文污肉 | 亚洲二区在线观看 | 男人的天堂网在线 |