灵域,穿越小说完本 ,女人书籍排行榜

1亮點在哪里？

引入QARepVGG同時利用重參數與8-bit量化的優勢；
采用AutoNAC搜索最優尺寸、每個stage的結構，含模塊類型、數量以及通道數；
采用混合量化機制進行模型量化，既考慮了每一層對精度與延遲的影響，也考慮了8-bit與16-bit之間切換對整體延遲的影響；
預訓練方案：automatically labeled data, self-distillation, and large datasets

總而言之，YOLO-NAS達成目標檢測任務新高度，取得了最佳的精度-延遲均衡。值得一提，YOLO-NAS與TensorRT推理引擎完全兼容，且支持INT8量化，達成前所未有的運行時性能。

Model	mAP	Latency (ms)
YOLO-NAS S	47.5	3.21
YOLO-NAS M	51.55	5.85
YOLO-NAS L	52.22	7.87
YOLO-NAS S INT-8	47.03	2.36
YOLO-NAS M INT-8	51.0	3.78
YOLO-NAS L INT-8	52.1	4.78

2方案簡介

受啟發于YOLOv6、YOLOv7以及YOLOv8，DECI的研究人員采用AutoNAC搜索比YOLOv8更優的架構，即"We used machine learning to find a new deep learning architecture!"

為什么要用AutoNAC呢？這是因為手工尋找"正確"結構過于低效且乏味，因此DECI的研究人員采用AutoNAC搜索新的目標檢測模型，同時最小化在NVIDIA T4上的推理延遲。

為構建YOLO-NAS，作者構建了一個深不可測的搜索空間(10¹⁴)以探索精度-延遲上限。最終，作者從中三樣三個"前沿觀察點"構建了YOLO-NAS-S，YOLO-NAS-M，YOLO-NAS-L。

3訓練簡介

YOLO-NAS采用了多階段訓練方式，包含(1)預訓練：Object365+COCO偽標簽數據；(2)知識蒸餾；(3) DFL，即Distribution Focal Loss

在訓練數據方面，作者基于RoboFlow100(由100個不同領域的數據集構成)進行訓練以驗證其處理復雜檢測任務的能力。

下圖對比了YOLO-NAS與YOLOv8、YOLOv5、YOLOv7在Roboflow100數據集上的性能。

4量化感知

YOLO-NAS采用了量化感知模塊與Selective量化以達成最優性能，即基于延遲-精度均衡考慮在特定層進行了"Skipping量化"。當轉換為INT8量化模型后，YOLO-NAS具有更少的精度損失(L-M-S的損失分別為0.45,0.65,0.51mAP)。

YOLO-NAS架構和預訓練權重定義了低延遲推理的新領域，也是微調下游任務的絕佳起點。

5上手體驗

看完上面的介紹有沒有“一頭霧水”的感覺，哈哈，上手體驗一把。

Step 1. 安裝super-gradients

condacreate-nsgpython=3.7
condaactivatesg
pipinstallsuper-gradients

Step 2. 命令行測試

fromsuper_gradients.trainingimportmodels
fromsuper_gradients.common.object_namesimportModels

net=models.get(Models.YOLO_NAS_S,pretrained_weights='coco')
net.predict("bus.jpg").show()

不出意外的話，你就可以看到下面的輸出結果了。

當然，如果出了意外，可以試試用ONNX推理，導出只需一行代碼。

models.convert_to_onnx(model=net,input_shape=(3,640,640),out_path='yolo-nas-s.onnx')

相關推理code可參考"YOLOv8-TensorRT"中的推理微調一下即可。需要注意以下兩點，通過官方工具導出的"bboxes"已經是"xyxy"格式了，所以不需要再執行make_grid, distance2bbox等操作了，直接進行"NMS"即可。但是，OpenCV的NMS要求輸入的BBOXES格式為xywh，所以還需要再改一下，^^哈哈哈^^