在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Yolo系列模型的部署、精度對(duì)齊與int8量化加速

jf_pmFSk4VX ? 來(lái)源:GiantPandaCV ? 2023-11-23 16:40 ? 次閱讀

Yolo系列模型的部署、精度對(duì)齊與int8量化加速

大家好,我是海濱。寫(xiě)這篇文章的目的是為宣傳我在23年初到現(xiàn)在完成的一項(xiàng)工作---Yolo系列模型在TensorRT上的部署與量化加速,目前以通過(guò)視頻的形式在B站發(fā)布(不收費(fèi),只圖一個(gè)一劍三連)。

麻雀雖小但五臟俱全,本項(xiàng)目系統(tǒng)介紹了YOLO系列模型在TensorRT上的量化方案,工程型較強(qiáng),我們給出的工具可以實(shí)現(xiàn)不同量化方案在Yolo系列模型的量化部署,無(wú)論是工程實(shí)踐還是學(xué)術(shù)實(shí)驗(yàn),相信都會(huì)對(duì)你帶來(lái)一定的幫助。

B站地址(求關(guān)注和三連):https://www.bilibili.com/video/BV1Ds4y1k7yr/

Github開(kāi)源地址(求star):https://github.com/thb1314/mmyolo_tensorrt/

當(dāng)時(shí)想做這個(gè)的目的是是為了總結(jié)一下目標(biāo)檢測(cè)模型的量化加速到底會(huì)遇到什么坑,只是沒(méi)想到不量化坑都會(huì)很多。

比如即使是以FP32形式推理,由于TensorRT算子參數(shù)的一些限制和TRT和torch內(nèi)部實(shí)現(xiàn)的不同,導(dǎo)致torch推理結(jié)果會(huì)和TensorRT推理結(jié)果天然的不統(tǒng)一,至于為什么不統(tǒng)一這里賣(mài)個(gè)關(guān)子大家感興趣可以看下視頻。

下面說(shuō)一下我們這個(gè)項(xiàng)目做了哪些事情

YOLO系列模型在tensorrt上的部署與精度對(duì)齊

該項(xiàng)目詳細(xì)介紹了Yolo系列模型在TensorRT上的FP32的精度部署,基于mmyolo框架導(dǎo)出各種yolo模型的onnx,在coco val數(shù)據(jù)集上對(duì)齊torch版本與TensorRT版本的精度。

在此過(guò)程中我們發(fā)現(xiàn),由于TopK算子限制和NMS算子實(shí)現(xiàn)上的不同,我們無(wú)法完全對(duì)齊torch和yolo模型的精度,不過(guò)這種風(fēng)險(xiǎn)是可解釋且可控的。

詳解TensorRT量化的三種實(shí)現(xiàn)方式

TensorRT量化的三種實(shí)現(xiàn)方式包括trt7自帶量化、dynamic range api,trt8引入的QDQ算子。

Dynamic range api會(huì)在采用基于MQbench框架做PTQ時(shí)講解。

TensorRT引入的QDQ算子方式在針對(duì)Yolo模型的PTQ和QAT方式時(shí)都有詳細(xì)的闡述,當(dāng)然這個(gè)過(guò)程也沒(méi)有那么順利。

在基于PytorchQuantization導(dǎo)出的含有QDQ節(jié)點(diǎn)的onnx時(shí),我們發(fā)現(xiàn)盡管量化版本的torch模型精度很高,但是在TensorRT部署時(shí)精度卻很低,TRT部署收精度損失很?chē)?yán)重,通過(guò)可視化其他量化形式的engine和問(wèn)題engine進(jìn)行對(duì)比,我們發(fā)現(xiàn)是一些層的int8量化會(huì)出問(wèn)題,由此找出問(wèn)題量化節(jié)點(diǎn)解決。

詳解MQbench量化工具包在TensorRT上的應(yīng)用

我們研究了基于MQbench框架的普通PTQ算法和包括Adaround高階PTQ算法,且啟發(fā)于Adaround高階PTQ算法。

我們將torch版本中的HistogramObserver引入到MQBench中,activation采用HistogramObserverweight采用MinMaxObserver,在PTQ過(guò)程中,weight的校準(zhǔn)前向傳播一次,activation的校準(zhǔn)需要多次因此我們將weight的PTQ過(guò)程和activation的PTQ過(guò)程分開(kāi)進(jìn)行,加速PTQ量化。實(shí)踐證明,我們采用上述配置的分離PTQ量化在yolov8上可以取得基本不掉點(diǎn)的int8量化精度。

針對(duì)YoloV6這種難量化模型,分別采用部分量化和QAT來(lái)彌補(bǔ)量化精度損失

在部分量化階段,我們采用量化敏感層分析技術(shù)來(lái)判斷哪些層最需要恢復(fù)原始精度,給出各種metric的量化敏感層實(shí)現(xiàn)。

在QAT階段,不同于原始Yolov6論文中蒸餾+RepOPT的方式,我們直接采用上述部分量化后的模型做出初始模型進(jìn)行finetune,結(jié)果發(fā)現(xiàn)finetune后的模型依然取得不錯(cuò)效果。

針對(duì)旋轉(zhuǎn)目標(biāo)檢測(cè),我們同樣給出一種端到端方案,最后的輸出就是NMS后的結(jié)果。通過(guò)將TensorRT中的EfficientNMS Plugin和mmcv中旋轉(zhuǎn)框iou計(jì)算的cuda實(shí)現(xiàn)相結(jié)合,給出EfficientNMS for rotated box版本,經(jīng)過(guò)簡(jiǎn)單驗(yàn)證我們的TRT版本與Torch版本模型輸出基本對(duì)齊。

以上就是我們這個(gè)項(xiàng)目做的事情,歡迎各位看官關(guān)注b站和一劍三連。同時(shí),如果各位有更好的想法也歡迎給我們的git倉(cāng)庫(kù)提PR。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4687

    瀏覽量

    94441
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3471

    瀏覽量

    49868
  • 精度
    +關(guān)注

    關(guān)注

    0

    文章

    263

    瀏覽量

    20328

原文標(biāo)題:Yolo系列模型的部署、精度對(duì)齊與int8量化加速

文章出處:【微信號(hào):GiantPandaCV,微信公眾號(hào):GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    i.mx95的EIQ轉(zhuǎn)換器將int8更改為uint8后出現(xiàn)報(bào)錯(cuò)怎么解決?

    我有一個(gè)大型量化 tensorflow lite 模型。它包括輸入和輸出類型為 “int8” 的 “Softmax”作。 我正在運(yùn)行 eIQ 模型工具版本 1.14.0 將
    發(fā)表于 04-14 07:15

    在OpenVINO?工具套件的深度學(xué)習(xí)工作臺(tái)中無(wú)法導(dǎo)出INT8模型怎么解決?

    無(wú)法在 OpenVINO? 工具套件的深度學(xué)習(xí) (DL) 工作臺(tái)中導(dǎo)出 INT8 模型
    發(fā)表于 03-06 07:54

    是否可以輸入隨機(jī)數(shù)據(jù)集來(lái)生成INT8訓(xùn)練后量化模型

    無(wú)法確定是否可以輸入隨機(jī)數(shù)據(jù)集來(lái)生成 INT8 訓(xùn)練后量化模型
    發(fā)表于 03-06 06:45

    首個(gè)Mamba系列模型量化方案MambaQuant解讀

    MambaQuant在Mamba系列模型上實(shí)現(xiàn)了W8A8/W4A8量化的方法,精度逼近浮點(diǎn),超過(guò)
    的頭像 發(fā)表于 03-05 11:10 ?370次閱讀
    首個(gè)Mamba<b class='flag-5'>系列</b><b class='flag-5'>模型</b><b class='flag-5'>量化</b>方案MambaQuant解讀

    添越智創(chuàng)基于 RK3588 開(kāi)發(fā)板部署測(cè)試 DeepSeek 模型全攻略

    飆升至百分之百,滿負(fù)荷運(yùn)轉(zhuǎn),而開(kāi)發(fā)板強(qiáng)大的 NPU 卻閑置一旁,無(wú)法發(fā)揮加速運(yùn)算優(yōu)勢(shì),這在一定程度上限制了模型的運(yùn)行效率與性能表現(xiàn)。 02-用RKLLM量化部署-挖掘NPU潛力
    發(fā)表于 02-14 17:42

    AI模型部署邊緣設(shè)備的奇妙之旅:如何實(shí)現(xiàn)手寫(xiě)數(shù)字識(shí)別

    準(zhǔn)備工作 在進(jìn)行模型部署之前,我們首先需要確認(rèn)自己手上的模塊的支持哪些算子、支持什么類型的量化int4/int8/fp16/混合
    發(fā)表于 12-06 17:20

    助力AIoT應(yīng)用:在米爾FPGA開(kāi)發(fā)板上實(shí)現(xiàn)Tiny YOLO V4

    為定點(diǎn)精度(例如 INT8),而非浮點(diǎn)數(shù)。這在維持準(zhǔn)確度的同時(shí)顯著降低計(jì)算量,尤其適合 FPGA 的固定點(diǎn)運(yùn)算支持。 Tiny YOLO 模型在 Vivado HLS 中的層層轉(zhuǎn)化
    發(fā)表于 12-06 17:18

    TensorRT-LLM低精度推理優(yōu)化

    本文將分享 TensorRT-LLM 中低精度量化內(nèi)容,并從精度和速度角度對(duì)比 FP8INT8。首先介紹性能,包括速度和精度。其次,介
    的頭像 發(fā)表于 11-19 14:29 ?994次閱讀
    TensorRT-LLM低<b class='flag-5'>精度</b>推理優(yōu)化

    OrangePi KunPeng Pro部署AI模型介紹

    OrangePi Kunpeng Pro是一款香橙派聯(lián)合華為精心打造的高性能板卡,搭載了鯤鵬處理器,可提供8TOPS INT8計(jì)算能力,板卡設(shè)計(jì)很精致,板載資源也非常多:
    的頭像 發(fā)表于 11-16 11:03 ?802次閱讀
    OrangePi KunPeng Pro<b class='flag-5'>部署</b>AI<b class='flag-5'>模型</b>介紹

    源2.0-M32大模型發(fā)布量化版 運(yùn)行顯存僅需23GB 性能可媲美LLaMA3

    2.0-M32量化版是"源"大模型團(tuán)隊(duì)為進(jìn)一步提高模算效率,降低大模型部署運(yùn)行的計(jì)算資源要求而推出的版本,通過(guò)采用領(lǐng)先的量化技術(shù),將原
    的頭像 發(fā)表于 08-25 22:06 ?557次閱讀
    源2.0-M32大<b class='flag-5'>模型</b>發(fā)布<b class='flag-5'>量化</b>版 運(yùn)行顯存僅需23GB 性能可媲美LLaMA3

    深度神經(jīng)網(wǎng)絡(luò)模型量化的基本方法

    深度神經(jīng)網(wǎng)絡(luò)模型量化是深度學(xué)習(xí)領(lǐng)域中的一種重要優(yōu)化技術(shù),旨在通過(guò)減少模型參數(shù)的精度(即從高精度浮點(diǎn)數(shù)如32位浮點(diǎn)數(shù)FP32降低到低
    的頭像 發(fā)表于 07-15 11:26 ?1115次閱讀

    深度學(xué)習(xí)模型量化方法

    深度學(xué)習(xí)模型量化是一種重要的模型量化技術(shù),旨在通過(guò)減少網(wǎng)絡(luò)參數(shù)的比特寬度來(lái)減小模型大小和加速
    的頭像 發(fā)表于 07-15 11:01 ?877次閱讀
    深度學(xué)習(xí)<b class='flag-5'>模型</b><b class='flag-5'>量化</b>方法

    【算能RADXA微服務(wù)器試用體驗(yàn)】+ GPT語(yǔ)音與視覺(jué)交互:2,圖像識(shí)別

    BModel混合精度量化 ├── yolov8s_qtable_fp32 # TPU-MLIR編譯時(shí),用于BM1684的INT8 BModel混合精度量化
    發(fā)表于 07-14 23:36

    esp-dl int8量化模型數(shù)據(jù)集評(píng)估精度下降的疑問(wèn)求解?

    一 試著將模型進(jìn)行了esp-dl上int16和int8量化,并在測(cè)試數(shù)據(jù)集上進(jìn)行精度評(píng)估,其中int
    發(fā)表于 06-28 15:10

    使用esp-dl中的example量化我的YOLO模型時(shí),提示ValueError: current model is not supported by esp-dl錯(cuò)誤,為什么?

    使用esp-dl中的example量化我的YOLO模型時(shí),提示:ValueError: current model is not supported by esp-dl 錯(cuò)誤, 請(qǐng)看我的代碼和
    發(fā)表于 06-28 06:47
    主站蜘蛛池模板: 亚洲免费看片 | 欧美一级淫片免费播放口 | 久久久福利 | 亚洲三级电影在线播放 | 欧美一级片免费在线观看 | 1024免费看片 | 精品视频在线观看视频免费视频 | 蕾丝视频在线播放 | 天天做天天添天天谢 | 成人看片在线观看 | 天天干天天色天天射 | 久久久夜色精品国产噜噜 | 视频在线观看免费播放www | 手机午夜看片 | 亚洲高清一区二区三区四区 | 日韩电影毛片 | 欧美日韩一区在线观看 | 一级做受毛片免费大片 | 天天操精品 | 一级在线免费视频 | 5566在线观看| 男人边吃奶边爱边做视频日韩 | 人人叉人人| 久久夜夜视频 | 黄视频网站在线观看 | 717影院理伦午夜论八戒 | 伊在线视频 | 午夜激情福利视频 | aa在线免费观看 | 欧美三级欧美一级 | 丁香六月在线 | 日本美女视频网站 | 美女用手扒开尿口给男生桶爽 | 91精品久久久久含羞草 | 亚洲成a人片在线观看88 | 黄视频网站免费观看 | 最近高清在线视频观看免费 | 欧美性猛交xxxx黑人喷水 | 婷婷综合 在线 | 婷婷丁香综合 | 免费在线视频观看 |