前言:
通常情況下,新模型發(fā)布后,其對應(yīng)的 github 倉庫中都會有提供自定數(shù)據(jù)集訓(xùn)練的任務(wù)腳本,開發(fā)者可以基于自己的數(shù)據(jù)集,快速實現(xiàn)對該模型結(jié)構(gòu)的訓(xùn)練與驗證。但往往這些訓(xùn)練腳本僅支持部分的數(shù)據(jù)集格式,例如 YOLOv8 的官方倉庫,就是需要開發(fā)者的數(shù)據(jù)集格式滿足 Ultralytics 標準,或是手動編寫腳本進行,將原本的數(shù)據(jù)集格式轉(zhuǎn)化為 Ultralytics 格式,但這部分工作其實并不影響模型訓(xùn)練后的部署效果,因此如果有一個工具幫助我們非常便捷地進行訓(xùn)練數(shù)據(jù)的管理與格式轉(zhuǎn)換,將大大提升模型訓(xùn)練的生產(chǎn)效率。
Datumaro 套件介紹
項目地址:https://github.com/openvinotoolkit/datumaro Datumaro 是一個支持 Python 和命令行調(diào)用兩種調(diào)用方式的標注數(shù)據(jù)管理工具。它可以支持以下功能: >標注數(shù)據(jù)格式雙向轉(zhuǎn)換可以適用于分類,分割,檢測,關(guān)鍵點檢測,文本定位,文本識別、重識別以及點云任務(wù)的數(shù)據(jù)處理,支持以下標注數(shù)據(jù)格式的互相轉(zhuǎn)換:-
CIFAR-10/100(classification)
-
Cityscapes
-
COCO(image_info,instances,person_keypoints,captions,labels,panoptic,stuff)
-
CVAT
-
ImageNet
-
Kitti(segmentation,detection,3D raw/velodyne points)
-
LabelMe
-
LFW(classification,person re-identification,landmarks)
-
MNIST(classification)
-
Open Images
-
PASCAL VOC(classification,detection,segmentation,action_classification,person_layout)
-
YOLO(bboxes)
-
多個數(shù)據(jù)集合并
-
數(shù)據(jù)集標簽過濾,例如刪除特定標簽的圖片
-
修改數(shù)據(jù)集標簽
-
數(shù)據(jù)集分割,例如訓(xùn)練集、驗證集與測試集
-
數(shù)據(jù)集采樣,例如基于 Entropy 的方法篩選合適的訓(xùn)練集樣本
Datumaro 套件實踐
Datumaro 是支持命令行調(diào)用的模式,因此我們可以非常方便地使用 1 行命令完成 2 種不同格式數(shù)據(jù)的轉(zhuǎn)換,下面我將基于命令行模式,演示一下 Datumaro 處理標注數(shù)據(jù)格式轉(zhuǎn)化時的基本方法。 ·Datumaro 安裝與基本使用方法Datumaro 支持基于 PyPI 的安裝方式,如果想在第一時間體驗最新的功能也可以基于 github倉庫直接安裝# From PyPI:$pipinstalldatumaro[default]$pipinstall'git+https://github.com/openvinotoolkit/datumaro[default]'Datumaro 的命令行調(diào)用方法非常簡單,如果你已經(jīng)有了一組標準格式的數(shù)據(jù)集,只需要在命令行中定于原始數(shù)據(jù)格式和路徑,以及轉(zhuǎn)換后的數(shù)據(jù)格式及路徑即可:$datumconvert-ifvoc-i-fcoco-o·YOLOv8目標檢測數(shù)據(jù)集實戰(zhàn)正好最近在準備表計識別的項目,這里借用一下飛槳提供的表計檢測數(shù)據(jù)集,目標是使用 YOLOv8 模型構(gòu)建表盤目標檢測任務(wù)。 數(shù)據(jù)集下載地址:https://bj.bcebos.com/paddlex/examples/meter_reader/datasets/meter_det.tar.gz 下載數(shù)據(jù)集后可以看到文件目錄結(jié)構(gòu)如下:├── meter_det│ ├── annotations│ ├── instance_train.json│ └── instance_test.json│ ├── test│ └── train其實中 train 和 test 目錄下分別保存了圖片格式的訓(xùn)練數(shù)據(jù)和驗證數(shù)據(jù):├── test│ ├── 20190822_105.jpg│ ├── 20190822_110.jpg│ ├── 20190822_123.jpg│ ├── 20190822_124.jpg│ ├── 20190822_127.jpg│ ├── …我們可以隨機打開一張圖片驗證:
總 結(jié)
Datumaro 是一個非常強大的標注數(shù)據(jù)管理工具,幫助開發(fā)者在各種數(shù)據(jù)標準間輕松實現(xiàn)格式的互相轉(zhuǎn)換,并實現(xiàn)對這些數(shù)據(jù)集的有效管理和改造,大大提升了既有數(shù)據(jù)集的復(fù)用性,完成對新模型效果進行快速驗證。
-
數(shù)據(jù)管理
+關(guān)注
關(guān)注
1文章
312瀏覽量
19985 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1223瀏覽量
25368
原文標題:一個工具搞定標注數(shù)據(jù)格式轉(zhuǎn)換
文章出處:【微信號:SDNLAB,微信公眾號:SDNLAB】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
請問TLV320AIC3268的ADC轉(zhuǎn)換后的數(shù)據(jù)格式是什么樣的?
ADC3561轉(zhuǎn)換成什么數(shù)據(jù)格式便于高速實時通過WIFI發(fā)送?
【中級】labview每日一教【11.21】TDMS數(shù)據(jù)格式
數(shù)據(jù)格式如何修改
標準測試數(shù)據(jù)格式STDF你了解多少
JSON 數(shù)據(jù)格式
數(shù)據(jù)格式不同,如何在轉(zhuǎn)換求均值
串口的數(shù)據(jù)格式
海洋環(huán)境信息數(shù)據(jù)格式分析研究
數(shù)據(jù)格式,計算機中數(shù)據(jù)格式詳細介紹
新型數(shù)據(jù)格式轉(zhuǎn)換的FPGA實現(xiàn)

評論