在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

視覺(jué)新范式Transformer之ViT的成功

深度學(xué)習(xí)實(shí)戰(zhàn) ? 來(lái)源:深度學(xué)習(xí)實(shí)戰(zhàn) ? 作者:深度學(xué)習(xí)實(shí)戰(zhàn) ? 2021-02-24 09:31 ? 次閱讀

這是一篇來(lái)自谷歌大腦的paper。這篇paper的主要成果是用Transformer[1]取代CNN,并證明了CNN不是必需的,甚至在大規(guī)模數(shù)據(jù)集預(yù)訓(xùn)練的基礎(chǔ)上在一些benchmarks做到了SOTA,并且訓(xùn)練時(shí)使用的資源更少。

圖像分塊

要將圖片分塊是因?yàn)門(mén)ransformer是用于NLP領(lǐng)域的,在NLP里面,Transformer的輸入是一個(gè)序列,每個(gè)元素是一個(gè)word embedding。因此將Transformer用于圖像時(shí)也要找出word的概念,于是就有了這篇paper的title:AN IMAGE IS WORTH 16X16 WORDS,將一張圖片看成是16*16個(gè)“單詞”。

inductive biases

機(jī)器學(xué)習(xí)中,人們對(duì)算法做了各種的假設(shè),這些假設(shè)就是inductive biases(歸納偏置),例如卷積神經(jīng)網(wǎng)絡(luò)就有很強(qiáng)的inductive biases。文中做了一個(gè)實(shí)驗(yàn),在中等大小數(shù)據(jù)集訓(xùn)練時(shí),精度會(huì)略遜色于ResNets。但是這個(gè)結(jié)果也是應(yīng)該預(yù)料到的,因?yàn)門(mén)ransformer缺少了CNN固有的一些inductive biases,比如平移不變性和局部性。所以當(dāng)沒(méi)有足夠的數(shù)據(jù)用于訓(xùn)練時(shí),你懂的。但是恰恰Transformer就強(qiáng)在這一點(diǎn),由于Transformer運(yùn)算效率更高,而且模型性能并沒(méi)有因?yàn)閿?shù)據(jù)量的增大而飽和,至少目前是這樣的,就是說(shuō)模型性能的上限很高,所以Transformer很適合訓(xùn)練大型的數(shù)據(jù)集。

ViT

20d8869e-74f8-11eb-8b86-12bb97331649.png

在ViT中,模型只有Encoder的,沒(méi)有Decoder,因?yàn)橹皇怯糜谧R(shí)別任務(wù),不需要Decoder。

首先按照慣例,先把圖像的patch映射成一個(gè)embedding,即圖中的linear projection層。然后加上position embedding,這里的position是1D的,因?yàn)榘凑兆髡叩恼f(shuō)法是在2D上并沒(méi)有性能上的提升。最后還要加上一個(gè)learnable classification token放在序列的前面,classification由MLP完成。

Hybrid Architecture。模型也可以是CNN和Transformer的混合,即Transformer的輸入不是原圖像的patch,而是經(jīng)過(guò)CNN得到的feature map的patch。

實(shí)驗(yàn)結(jié)果

211198d0-74f8-11eb-8b86-12bb97331649.png

不同大小的ViT的參數(shù)量。

2159b7b4-74f8-11eb-8b86-12bb97331649.png

可以看到在預(yù)訓(xùn)練數(shù)據(jù)集很小的情況下ViT的效果并不好,但是好在隨著預(yù)訓(xùn)練數(shù)據(jù)集越大時(shí)ViT的效果越好,最終超過(guò)ResNet。

21979b1a-74f8-11eb-8b86-12bb97331649.png

BiT[2]是谷歌用JFT-300M(谷歌內(nèi)部非公開(kāi)數(shù)據(jù)集)訓(xùn)練的ResNet模型。Noisy Student[3]是谷歌提出借助半監(jiān)督大大提升了imagenet性能的算法。可以看到,在JFT-300M預(yù)訓(xùn)練的情況下,ViT比ResNet好上不少,并且開(kāi)銷(xiāo)更小。

總結(jié)

ViT的成功我認(rèn)為是以下幾點(diǎn):

1、self-attention比CNN更容易捕捉long-range的信息;

2、大量的數(shù)據(jù),在視覺(jué)中CNN是人類(lèi)實(shí)踐中很成功的inductive biases,顯然大量的數(shù)據(jù)是能戰(zhàn)勝inductive biases的;

3、計(jì)算效率高,因?yàn)閟elf-attention可以看作是矩陣運(yùn)算,所以效率很高,容易訓(xùn)練大型的模型。

原文標(biāo)題:視覺(jué)新范式Transformer之ViT

文章出處:【微信公眾號(hào):深度學(xué)習(xí)實(shí)戰(zhàn)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器視覺(jué)
    +關(guān)注

    關(guān)注

    163

    文章

    4520

    瀏覽量

    122522
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8498

    瀏覽量

    134254
  • Transforme
    +關(guān)注

    關(guān)注

    0

    文章

    12

    瀏覽量

    8876

原文標(biāo)題:視覺(jué)新范式Transformer之ViT

文章出處:【微信號(hào):gh_a204797f977b,微信公眾號(hào):深度學(xué)習(xí)實(shí)戰(zhàn)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    MotorControl Workbench_6.3.2配置單片機(jī)時(shí)找不到STM32H743VIT6E,如何解決?

    官方、各位大佬,在使用MotorControl Workbench_6.3.2配置STM32H743VIT6E的FOC電機(jī)控制軟件時(shí),找不到對(duì)應(yīng)型號(hào)只有745,如何解決,是否可以相似信號(hào)替代(如果可以的話有沒(méi)有說(shuō)明手冊(cè)),或者有沒(méi)有其他手段解決。
    發(fā)表于 06-16 07:03

    Transformer架構(gòu)概述

    由于Transformer模型的出現(xiàn)和快速發(fā)展,深度學(xué)習(xí)領(lǐng)域正在經(jīng)歷一場(chǎng)翻天覆地的變化。這些突破性的架構(gòu)不僅重新定義了自然語(yǔ)言處理(NLP)的標(biāo)準(zhǔn),而且拓寬了視野,徹底改變了AI的許多方面。
    的頭像 發(fā)表于 06-10 14:24 ?236次閱讀
    <b class='flag-5'>Transformer</b>架構(gòu)概述

    ALVA空間智能視覺(jué)焊接方案重構(gòu)工業(yè)焊接范式

    在智能制造浪潮席卷全球的今天,焊接工藝作為制造業(yè)的核心環(huán)節(jié),正經(jīng)歷著從“經(jīng)驗(yàn)驅(qū)動(dòng)”向“數(shù)據(jù)驅(qū)動(dòng)”的范式躍遷。
    的頭像 發(fā)表于 05-15 11:30 ?347次閱讀

    ?VLM(視覺(jué)語(yǔ)言模型)?詳細(xì)解析

    的詳細(xì)解析: 1. 核心組成與工作原理 視覺(jué)編碼器 :提取圖像特征,常用CNN(如ResNet)或視覺(jué)TransformerViT)。 語(yǔ)言模型 :處理文本輸入/輸出,如GPT、BE
    的頭像 發(fā)表于 03-17 15:32 ?3289次閱讀
    ?VLM(<b class='flag-5'>視覺(jué)</b>語(yǔ)言模型)?詳細(xì)解析

    如何使用MATLAB構(gòu)建Transformer模型

    Transformer 模型在 2017 年由 Vaswani 等人在論文《Attentionis All You Need》中首次提出。其設(shè)計(jì)初衷是為了解決自然語(yǔ)言處理(Nature
    的頭像 發(fā)表于 02-06 10:21 ?3772次閱讀
    如何使用MATLAB構(gòu)建<b class='flag-5'>Transformer</b>模型

    地平線ViG基于視覺(jué)Mamba的通用視覺(jué)主干網(wǎng)絡(luò)

    Vision Mamba的成功預(yù)示著將視覺(jué)表征學(xué)習(xí)轉(zhuǎn)換為線性復(fù)雜度視覺(jué)序列表征學(xué)習(xí)具有巨大的潛力。盡管以Vision Mamba為代表的線性視覺(jué)序列表征學(xué)習(xí)結(jié)構(gòu)在高清圖像上展示了顯著的
    的頭像 發(fā)表于 01-08 09:33 ?572次閱讀
    地平線ViG基于<b class='flag-5'>視覺(jué)</b>Mamba的通用<b class='flag-5'>視覺(jué)</b>主干網(wǎng)絡(luò)

    transformer專(zhuān)用ASIC芯片Sohu說(shuō)明

    2022年,我們打賭說(shuō)transformer會(huì)統(tǒng)治世界。 我們花了兩年時(shí)間打造Sohu,這是世界上第一個(gè)用于transformer(ChatGPT中的“T”)的專(zhuān)用芯片。 將transformer
    的頭像 發(fā)表于 01-06 09:13 ?1063次閱讀
    <b class='flag-5'>transformer</b>專(zhuān)用ASIC芯片Sohu說(shuō)明

    知行科技大模型研發(fā)體系初見(jiàn)效果

    11月,知行科技作為共同第一作者提出的Strong Vision Transformers Could BeExcellent Teachers(ScaleKD),以預(yù)訓(xùn)練ViT(視覺(jué)
    的頭像 發(fā)表于 12-27 09:38 ?584次閱讀
    知行科技大模型研發(fā)體系初見(jiàn)效果

    Transformer模型的具體應(yīng)用

    如果想在 AI 領(lǐng)域引領(lǐng)一輪新浪潮,就需要使用到 Transformer
    的頭像 發(fā)表于 11-20 09:28 ?1487次閱讀
    <b class='flag-5'>Transformer</b>模型的具體應(yīng)用

    Transformer模型能夠做什么

    盡管名為 Transformer,但它們不是電視銀幕上的變形金剛,也不是電線桿上垃圾桶大小的變壓器。
    的頭像 發(fā)表于 11-20 09:27 ?930次閱讀
    <b class='flag-5'>Transformer</b>模型能夠做什么

    使用ReMEmbR實(shí)現(xiàn)機(jī)器人推理與行動(dòng)能力

    視覺(jué)語(yǔ)言模型(VLM)通過(guò)將文本和圖像投射到同一個(gè)嵌入空間,將基礎(chǔ)大語(yǔ)言模型(LLM)強(qiáng)大的語(yǔ)言理解能力與視覺(jué) transformerViT)的
    的頭像 發(fā)表于 11-19 15:37 ?793次閱讀
    使用ReMEmbR實(shí)現(xiàn)機(jī)器人推理與行動(dòng)能力

    Prophesee:基于EVS打造機(jī)器視覺(jué)范式

    電子發(fā)燒友網(wǎng)報(bào)道(文/吳子鵬)機(jī)器視覺(jué)起源于20世紀(jì)50年代。近幾年,隨著邊緣智能需求爆發(fā),機(jī)器視覺(jué)發(fā)展換擋提速。根據(jù)前瞻產(chǎn)業(yè)研究院的統(tǒng)計(jì)數(shù)據(jù),2023年全球機(jī)器視覺(jué)市場(chǎng)規(guī)模約為130億美元,預(yù)計(jì)
    的頭像 發(fā)表于 07-24 00:53 ?3660次閱讀
    Prophesee:基于EVS打造機(jī)器<b class='flag-5'>視覺(jué)</b>新<b class='flag-5'>范式</b>

    Transformer能代替圖神經(jīng)網(wǎng)絡(luò)嗎

    Transformer作為一種在處理序列數(shù)據(jù)方面表現(xiàn)出色的深度學(xué)習(xí)模型,自其提出以來(lái),已經(jīng)在自然語(yǔ)言處理(NLP)、時(shí)間序列分析等領(lǐng)域取得了顯著的成果。然而,關(guān)于Transformer是否能完全代替圖神經(jīng)網(wǎng)絡(luò)(GNN)的問(wèn)題,需要從多個(gè)維度進(jìn)行深入探討。
    的頭像 發(fā)表于 07-12 14:07 ?849次閱讀

    Transformer語(yǔ)言模型簡(jiǎn)介與實(shí)現(xiàn)過(guò)程

    在自然語(yǔ)言處理(NLP)領(lǐng)域,Transformer模型以其卓越的性能和廣泛的應(yīng)用前景,成為了近年來(lái)最引人注目的技術(shù)之一。Transformer模型由谷歌在2017年提出,并首次應(yīng)用于神經(jīng)機(jī)器翻譯
    的頭像 發(fā)表于 07-10 11:48 ?2893次閱讀

    使用PyTorch搭建Transformer模型

    Transformer模型自其問(wèn)世以來(lái),在自然語(yǔ)言處理(NLP)領(lǐng)域取得了巨大的成功,并成為了許多先進(jìn)模型(如BERT、GPT等)的基礎(chǔ)。本文將深入解讀如何使用PyTorch框架搭建Transformer模型,包括模型的結(jié)構(gòu)、訓(xùn)
    的頭像 發(fā)表于 07-02 11:41 ?2516次閱讀
    主站蜘蛛池模板: 色偷偷男人天堂 | jk黑色丝袜美腿老师啪啪 | 曰本在线网 | 麻豆色哟哟网站 | 色婷婷狠狠久久综合五月 | 91大神大战高跟丝袜美女 | 中文字幕精品一区二区三区视频 | 性夜影院爽黄a爽免费视 | 色欧美色| 天天操夜夜欢 | 四虎永久免费最新在线 | 亚州国产精品精华液 | 最近2018中文字幕免费视频 | 国产男女交性视频播放免费bd | 亚洲美女高清一区二区三区 | 天天操夜夜逼 | 成人a毛片在线看免费全部播放 | 三级四级特黄在线观看 | 国产片无遮挡在线看床戏 | 一区二区三区四区视频 | 欧美激情 自拍 | 亚洲天堂免费在线 | 波多野结衣中文字幕教师 | 精品手机在线视频 | 狠狠色噜噜狠狠狠狠黑人 | 六月色| 88av视频在线 | 成人在线一区二区三区 | 免费观看在线永久免费xx视频 | 亚色图 | 狠狠干网址 | 五月情婷婷 | 美女被免费网站在线视频九色 | 免费看黄资源大全高清 | 美女天天干 | 男人操女人免费视频 | 久久国产成人精品国产成人亚洲 | 成人欧美一区二区三区的电影 | 国色天香网在线 | 四虎影院免费观看视频 | 视频在线观看免费网站 |