在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

YOLO的另一選擇,手機端97FPS的Anchor-Free目標(biāo)檢測模型NanoDet

電子設(shè)計 ? 來源:電子設(shè)計 ? 作者:電子設(shè)計 ? 2020-12-08 22:42 ? 次閱讀
文章轉(zhuǎn)載于:知乎
作者:RangiLyu

上來先貼一下性能對比:

華為P30上用NCNN移植跑benchmark,每幀僅需10.23毫秒,比yolov4-tiny快3倍,參數(shù)量小6倍,COCO mAP(0.5:0.95)能夠達(dá)到20.6 。而且模型權(quán)重文件只有1.8mb,對比動輒數(shù)十兆的模型,可以說是相當(dāng)友好了~

Android Demo

項目地址(提供訓(xùn)練代碼到安卓部署一站式解決方案):

RangiLyu/nanodet: ?Super fast and lightweight anchor-free object detection model. Only 1.8mb and run 97FPS on cellphone (github.com)?github.com

前言

深度學(xué)習(xí)目標(biāo)檢測已經(jīng)發(fā)展了許多年,從Two-stage到One-stage,從Anchor-base到Anchor-free,再到今年的用Transformer做目標(biāo)檢測,各種方法百花齊放,但是在移動端目標(biāo)檢測算法上,yolo系列和SSD等Anchor-base的模型一直占據(jù)著主導(dǎo)地位。這個項目的主要目的是希望能夠開源一個移動端實時的Anchor-free檢測模型,能夠提供不亞于yolo系列的性能,而且同樣方便訓(xùn)練和移植。
其實從去年大量anchor-free的論文發(fā)表之后,我就一直想把anchor free的模型移植到移動端或者是嵌入式設(shè)備上。當(dāng)時嘗試過把FCOS輕量化的實驗,奈何效果并不如mobilenet+yolov3,也就暫時擱置了。分析下來,主要還是因為FCOS的centerness分支在輕量級的模型上很難收斂,之后發(fā)表的一些在FCOS上面進行改進的論文也都沒有解決這一問題。

直到今年年中的時候刷arxiv突然刷到了

@李翔

老師的論文Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection,論文中提出的GFocalLoss完美去掉了FCOS系列的Centerness分支,而且在coco數(shù)據(jù)集上漲點顯著,這么好的文章怎么能不點贊呢?GFL的出現(xiàn)不僅去掉了難以訓(xùn)練的Centerness,而且還省去了這一分支上的大量卷積,減少了檢測頭的計算開銷,非常適合移動端的輕量化部署。
貼一下李翔老師關(guān)于GFocal Loss的解讀:

李翔:大白話 Generalized Focal Loss?zhuanlan.zhihu.com

檢測頭輕量化

在找到了合適的損失函數(shù)之后,接下來的關(guān)鍵就是如何使其在輕量化模型上發(fā)揮作用了。首先需要對移動端進行優(yōu)化的就是檢測頭:FCOS系列使用了共享權(quán)重的檢測頭,即對FPN出來的多尺度Feature Map使用同一組卷積預(yù)測檢測框,然后每一層使用一個可學(xué)習(xí)的Scale值作為系數(shù),對預(yù)測出來的框進行縮放。

FCOS模型架構(gòu)

這么做的好處是能夠?qū)z測頭的參數(shù)量降低為不共享權(quán)重狀態(tài)下的1/5。這對于光是檢測頭就擁有數(shù)百通道的卷積的大模型來說非常有用,但是對于輕量化模型來說,共享權(quán)重檢測頭并沒有很大的意義。由于移動端模型推理由CPU進行計算,共享權(quán)重并不會對推理過程進行加速,而且在檢測頭非常輕量的情況下,共享權(quán)重使得其檢測能力進一步下降,因此還是選擇每一層特征使用一組卷積比較合適。
同時,F(xiàn)COS系列在檢測頭上使用了Group Normalization作為歸一化的方式,GN對比BN有很多好處,但是卻有一個缺點:BN在推理時能夠?qū)⑵錃w一化的參數(shù)直接融合進卷積中,可以省去這一步計算,而GN則不行。為了能夠節(jié)省下歸一化操作的時間,我選擇將GN替換為BN。
FCOS的檢測頭使用了4個256通道的卷積作為一個分支,也就是說在邊框回歸和分類兩個分支上一共有8個c=256的卷積,計算量非常大。為了將其輕量化,我首先選擇使用深度可分離卷積替換普通卷積,并且將卷積堆疊的數(shù)量從4個減少為2組。在通道數(shù)上,將256維壓縮至96維,之所以選擇96,是因為需要將通道數(shù)保持為8或16的倍數(shù),這樣能夠享受到大部分推理框架的并行加速。最后,借鑒了yolo系列的做法,將邊框回歸和分類使用同一組卷積進行計算,然后split成兩份。下圖就是最終得到的輕量化檢測頭的結(jié)構(gòu),非常的小巧:

NanoDet檢測頭

FPN層改進

目前針對FPN的改進有許多,如EfficientDet使用了BiFPN,yolo v4和yolo v5使用了PAN,除此之外還有BalancedFPN等等。BiFPN雖然性能強大,但是堆疊的特征融合操作勢必會帶來運行速度的降低,而PAN只有自上而下和自下而上兩條通路,非常的簡潔,是輕量級模型特征融合的好選擇。
原版的PAN和yolo中的PAN,都使用了stride=2的卷積進行大尺度Feature Map到小尺度的縮放。我為了輕量化的原則,選擇完全去掉PAN中的所有卷積,只保留從骨干網(wǎng)絡(luò)特征提取后的1x1卷積來進行特征通道維度的對齊,上采樣和下采樣均使用插值來完成。與yolo使用的concatenate操作不同,我選擇將多尺度的Feature Map直接相加,使得整個特征融合模塊的計算量變得非常非常小。
最終的極小版PAN的結(jié)構(gòu)也是非常簡單:

超輕量的PAN

Backbone的選擇

原本有考慮過自己魔改一個輕量級的backbone出來,但是最后評估了一下感覺工作量太大了(在家訓(xùn)練模型電費太貴),就打算選擇使用現(xiàn)有的一些輕量級骨干網(wǎng)絡(luò)。最開始的選擇有MobileNet系列,GhostNet,ShuffleNet,還有最近的EfficientNet。在評估了參數(shù)量、計算量以及權(quán)重大小之后,還是選擇了ShuffleNetV2作為骨干網(wǎng)絡(luò),因為它是這些模型里面在相似精度下體積最小的,而且對移動端CPU推理也比較友好。
最終我選擇使用ShuffleNetV2 1.0x作為backbone,去掉了最后一層卷積,并且抽取8、16、32倍下采樣的特征輸入進PAN做多尺度的特征融合。整個骨干模型使用了Torchvision提供的代碼,能夠直接加載Torchvision上提供的imagenet預(yù)訓(xùn)練權(quán)重,對加快模型收斂有很大的幫助。順便一提,最近有些論文指出使用分類的預(yù)訓(xùn)練權(quán)重初始化模型對檢測任務(wù)的效果不如隨機初始化的好,不過這要付出訓(xùn)練更多步數(shù)的代價,我還沒有測試過,歡迎大家嘗試~

NanoDet整體模型結(jié)構(gòu)

模型性能

在經(jīng)過對one-stage檢測模型三大模塊(Head、Neck、Backbone)都進行輕量化之后,得到了目前開源的NanoDet-m模型,在320x320輸入分辨率的情況下,整個模型的Flops只有0.72B,而yolov4-tiny則有6.96B,小了將近十倍!模型的參數(shù)量也只有0.95M,權(quán)重文件在使用ncnn optimize進行16位存儲之后,只有1.8mb,非常適合在移動端部署,能夠有效減少APP體積,同時也對更低端的嵌入式設(shè)備更加友好。
盡管模型非常的輕量,但是性能卻依舊強勁。對于小模型,往往選擇使用AP50這種比較寬容的評價指標(biāo)進行對比,這里我選擇用更嚴(yán)格一點的COCO mAP(0.5:0.95)作為評估指標(biāo),同時兼顧檢測和定位的精度。在COCO val 5000張圖片上測試,并沒有使用Testing-Time-Augmentation的情況下,320分辨率輸入能夠達(dá)到20.6的mAP,比tiny-yolov3高4分,只比yolov4-tiny低1個百分點,而將輸入分辨率與yolo保持一致,都使用416輸入的情況下,得分持平。
最后用ncnn部署到手機上之后跑了一下benchmark,模型前向計算時間只要10毫秒左右,對比yolov3和v4 tiny,均在30毫秒的量級。在安卓攝像頭demo app上,算上圖片預(yù)處理,檢測框后處理以及繪制檢測框的時間,也能輕松跑到40+FPS~。(關(guān)于模型從pytorch到安卓的部署,以及如何用C++實現(xiàn)GFL檢測框的后處理,我會再專門發(fā)一遍文章詳細(xì)介紹)

ncnn 安卓benchmark對比

總結(jié)

NanoDet總體而言沒有特別多的創(chuàng)新點,是一個純工程化的項目,主要的工作就是將目前學(xué)術(shù)界的一些優(yōu)秀論文,落地到移動端的輕量級模型上。最后通過這些論文的組合,得到了一個兼顧精度、速度和體積的檢測模型。
為了讓大家能夠快速使用NanoDet,方便訓(xùn)練和部署,我已經(jīng)把Pytorch的訓(xùn)練代碼、基于NCNN的Linux和windowsC++部署代碼以及Android攝像頭Demo全部開源,同時在Readme中也包含了非常詳細(xì)的教程,歡迎大家使用,歡迎提issue~
順便提一句,NanoDet訓(xùn)練并沒有用到很多數(shù)據(jù)增強的技巧,模型結(jié)構(gòu)也非常簡單,也就是說mAP應(yīng)該還有很大的提升空間,如果有小伙伴愿意魔改一下再漲幾個點那就再好不過了(嘻嘻)。
最后的最后,Github求Star啊!!

RangiLyu/nanodet: ?Super fast and lightweight anchor-free object detection model. Only 1.8mb and run 97FPS on cellphone (github.com)?github.com

/=======================================================

11月25日更新:

大家都太熱情了!NanoDet僅開源三天Github就已經(jīng)突破900star,并且登上了Github趨勢榜!

感謝各位大佬的支持,特別感謝李翔老師的論文給NanoDet模型的啟發(fā),以及ncnn作者nihui在項目初期的推廣~大家快去給ncnn和GFocalLoss點star啊!

Tencent/ncnn: ncnn is a high-performance neural network inference framework optimized for the mobile platform (github.com)?github.comimplus/GFocal: Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection (github.com)?github.com

之前一直在ncnn群里面討論NanoDet,感覺不太合適,所以專門建了一個討論群:908606542 (進群答案:煉丹) 歡迎大家來討論~

推薦閱讀

更多Tengine相關(guān)內(nèi)容請關(guān)注Tengine-邊緣AI推理框架專欄。

審核編輯:符乾江
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1804

    文章

    48660

    瀏覽量

    246191
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5554

    瀏覽量

    122446
收藏 人收藏

    評論

    相關(guān)推薦
    熱點推薦

    labview調(diào)用yolo目標(biāo)檢測、分割、分類、obb

    labview調(diào)用yolo目標(biāo)檢測、分割、分類、obb、pose深度學(xué)習(xí),支持CPU和GPU推理,32/64位labview均可使用。 (yolov5~yolov12)
    發(fā)表于 03-31 16:28

    使用Yolo-v3-TF運行OpenVINO?對象檢測Python演示時的結(jié)果不準(zhǔn)確的原因?

    通過模型下載器下載了 yolo-v3-tf: ./downloader.py --name yolo-v3-tf 通過模型 優(yōu)化器轉(zhuǎn)換模型
    發(fā)表于 03-06 06:31

    Yolo V3-Tiny模型轉(zhuǎn)換為IR格式遇到錯誤怎么解決?

    Yolo V3-Tiny 模型轉(zhuǎn)換為 IR 格式。 遇到錯誤: Error: Exception occurred during running replacer \"
    發(fā)表于 03-05 09:57

    【米爾RK3576開發(fā)板評測】+項目名稱百度飛槳PP-YOLOE

    、簡介 PP-YOLOE是百度基于其之前的PP-YOLOv2所改進的卓越的單階段Anchor-free模型,超越了多種流行的YOLO模型
    發(fā)表于 02-15 17:14

    【米爾RK3576開發(fā)板評測】+項目名稱3、使用rknn 進行圖像檢測

    前言 目標(biāo)是在板子上跑yolo11,直接通過配置官方的模型環(huán)境來實現(xiàn)。 先github拉取下rockchip開源出來的
    發(fā)表于 01-03 21:03

    AI模型部署邊緣設(shè)備的奇妙之旅:目標(biāo)檢測模型

    并非易事,它涉及到從選擇合適的算法架構(gòu)到針對特定硬件平臺進行優(yōu)化等系列復(fù)雜的工作。 接下來,我們將詳細(xì)介紹如何在資源受限的邊緣設(shè)備上成功部署目標(biāo)檢測
    發(fā)表于 12-19 14:33

    使用英特爾AI PC為YOLO模型訓(xùn)練加速

    在以往的實踐中,當(dāng)我們針對 ultralytics 的 YOLO 模型開展訓(xùn)練工作時,可供選擇的計算設(shè)備通常局限于 CPU、mps 以及 cuda 這幾種。然而,自 PyTorch2.5 版本發(fā)布
    的頭像 發(fā)表于 12-09 16:14 ?1322次閱讀
    使用英特爾AI PC為<b class='flag-5'>YOLO</b><b class='flag-5'>模型</b>訓(xùn)練加速

    助力AIoT應(yīng)用:在米爾FPGA開發(fā)板上實現(xiàn)Tiny YOLO V4

    Only Look Once)是種實時物體檢測模型,它通過次性掃描整個圖像,實現(xiàn)高效的對象識別。而其簡化版 Tiny YOLO V4
    發(fā)表于 12-06 17:18

    《DNK210使用指南 -CanMV版 V1.0》第四十二章 人臉口罩佩戴檢測實驗

    了LCD和攝像頭。接著是構(gòu)造個KPU對象,并從文件系統(tǒng)中加載人臉口罩佩戴檢測網(wǎng)絡(luò)需要用到的網(wǎng)絡(luò)模型,并初始化YOLO2網(wǎng)絡(luò)。然后便是在
    發(fā)表于 11-18 09:28

    YOLOv10自定義目標(biāo)檢測之理論+實踐

    概述 YOLOv10 是由清華大學(xué)研究人員利用 Ultralytics Python 軟件包開發(fā)的,它通過改進模型架構(gòu)并消除非極大值抑制(NMS)提供了種新穎的實時目標(biāo)檢測方法。這些
    的頭像 發(fā)表于 11-16 10:23 ?1397次閱讀
    YOLOv10自定義<b class='flag-5'>目標(biāo)</b><b class='flag-5'>檢測</b>之理論+實踐

    《DNK210使用指南 -CanMV版 V1.0》第四十一章 YOLO2物體檢測實驗

    )) lcd.display(img) gc.collect()可以看到開始是先初始化了LCD和攝像頭。接著是構(gòu)造個KPU對象,并從文件系統(tǒng)中加載YOLO2人手檢測網(wǎng)絡(luò)需要用到的網(wǎng)
    發(fā)表于 11-14 09:22

    《DNK210使用指南 -CanMV版 V1.0》第四十章 YOLO2人手檢測實驗

    第四十章 YOLO2人手檢測實驗 在上章節(jié)中,介紹了利用maix.KPU模塊實現(xiàn)YOLO2的人臉檢測,本章將繼續(xù)介紹利用maix.KPU模
    發(fā)表于 11-14 09:20

    《DNK210使用指南 -CanMV版 V1.0》第三十九章 YOLO2人臉檢測實驗

    )init_yolo2()方法用于初始化yolo2網(wǎng)絡(luò)模型,同時為yolo2網(wǎng)絡(luò)傳入些必要的參數(shù),只有在使用
    發(fā)表于 11-13 09:37

    使用OpenVINO C# API部署YOLO-World實現(xiàn)實時開放詞匯對象檢測

    YOLO-World是個融合了實時目標(biāo)檢測與增強現(xiàn)實(AR)技術(shù)的創(chuàng)新平臺,旨在將現(xiàn)實世界與數(shù)字世界無縫對接。該平臺以YOLO(You O
    的頭像 發(fā)表于 08-30 16:27 ?1463次閱讀
    使用OpenVINO C# API部署<b class='flag-5'>YOLO</b>-World實現(xiàn)實時開放詞匯對象<b class='flag-5'>檢測</b>

    用OpenVINO C# API在intel平臺部署YOLOv10目標(biāo)檢測模型

    模型設(shè)計策略,從效率和精度兩個角度對YOLOs的各個組成部分進行了全面優(yōu)化,大大降低了計算開銷,增強了性能。在本文中,我們將結(jié)合OpenVINO C# API使用最新發(fā)布的OpenVINO 2024.1部署YOLOv10目標(biāo)檢測
    的頭像 發(fā)表于 06-21 09:23 ?1754次閱讀
    用OpenVINO C# API在intel平臺部署YOLOv10<b class='flag-5'>目標(biāo)</b><b class='flag-5'>檢測</b><b class='flag-5'>模型</b>
    主站蜘蛛池模板: 一区国产传媒国产精品 | 午夜黄色网 | 天天做.天天爱.天天综合网 | 午夜免费毛片 | 免费香蕉视频国产在线看 | 国产亚洲精品久久久久久久软件 | 午夜影视在线 | 一级黄a | 五月天婷婷综合网 | 深爱五月激情网 | 97综合网 | 欧美日本综合 | 色人阁综合 | 色综合久久五月 | 色y情视频免费看 | 精品国产_亚洲人成在线高清 | 欧美成人精品福利网站 | 国模吧双双大尺度炮交gogo | 女生张开腿让男人桶 | 久久人人做人人玩人精品 | 好大好紧好爽好湿润视频 | 日本欧美午夜 | 美女扒开尿口给男人爽免费视频 | 亚洲一区视频 | 一个人看的www片免费高清视频 | 在线你懂的网址 | 中文4480yy私人免费影院 | 中文字幕日本一区波多野不卡 | 开心激情播播网 | 教官的好爽好深h片段 | 午夜999 | 无遮挡一级毛片 | 91av在线免费观看 | 尤物蜜芽福利国产污在线观看 | 热久久综合这里只有精品电影 | 亚洲第8页| www.色图| 亚洲综合国产一区二区三区 | 你懂的在线视频网站 | 免费又爽又黄的禁片1000部 | 久久久免费观看 |