圖像識別是利用計算機對圖像進行處理、分析和理解,以識別各種不同模式的目標和對象的技術,是應用深度學習算法的一種實踐應用。圖像分類是根據圖像的語義信息對不同類別圖像進行區分,是計算機視覺的核心,是物體檢測、圖像分割、物體跟蹤、行為分析、人臉識別等其他高層次視覺任務的基礎。圖像識別與分類在許多領域都有著廣泛的應用。
一、垃圾圖像識別及分類
研究背景:垃圾分類可以實現資源的回收利用,是解決垃圾處理問題的有效方式。傳統的手工垃圾分揀的效率低、成本高,因此,如何將垃圾自動按類處理具有重要的研究意義。
[1].Engineering; Study Results from Ho Chi Minh City University of Technology Hutech Update Understanding of Engineering (A Novel Framework for Trash Classification Using Deep Transfer Learning)[J].Journal of Engineering,2020.
數據來源:TrashNet數據集和自制越南垃圾數據集(VN-trash dataset),該數據集由來自越南的有機、無機和醫療廢物三個不同類別的5904幅圖像組成。
數據處理方法:選擇ResNext架構作為應用遷移學習的基礎模型,修改了原始ResNext-101模型,在全局平均池層之后添加了兩個完全連接的層。輸入圖像的被歸一化為0和1之間的值。在訓練和測試階段,通過水平翻轉和隨機裁剪方式,進行數據增強處理生成更多的圖像。在訓練階段,為每個特定的廢物類別呈現的輸入圖像被輸入到我們建議的體系結構中。在最后一層,選用softmax函數的對數作為分類器,Adam作為優化器。在TrashNet數據集和VN-trash數據集60%的圖像作為訓練集,20%作為驗證集,20%作為測試集。選擇Desenet121_Aral、RecycleNet和ResNet_Ruiz模型作為對比試驗,驗證所設計模型的有效性。
研究結論:DNN垃圾分類器在垃圾網和虛擬垃圾數據集上的準確率分別為94%和98%,在這兩個實驗數據集上均優于現有的垃圾分類方法。
與同類研究相比優缺點:提供了兩個實驗數據集,一個基于公開數據集,一個自制數據集,使模型訓練更具泛化性。但是對圖像的分割并沒有針對性,圖像背景比較平衡,未考慮不平衡背景下的圖像分類。
文獻閱讀價值:開發了用于垃圾分類的深度神經網絡模型DNN-TC,對ResNext模型的改進,提高了預測性能。
[2]Bobulski Janusz, Kubanek Mariusz, Yang Miin-Shen. Deep Learning for Plastic Waste Classification System[J].Applied Computational Intelligence and Soft Computing,2021,2021.
數據來源:WaDaBa數據集,包括聚酯(PET)、聚乙烯(PE-HD)、聚苯乙烯(PS)、聚丙烯(PP)四類垃圾圖像。
數據處理方法:對PET圖像旋轉24°、PE-HD圖像旋轉6°、PS圖像旋轉5°、PP圖像旋轉7°對圖像進行增強,獲得33000張PET圖像,36000張PE-HD圖像、37440張PS圖像,3380張PP圖像。對圖像進行分割,得到尺寸為120×120和227×227像素的輸入圖像。構建兩個卷積神經網絡,第一個基于AlexNet網絡構建,包含23層,第一個卷積層大小為11×11,輸入圖像大小為227×227;第二個神經網絡為自己構建的網絡結構,包括15層,第一個卷積層由64個大小為9×9的卷積核構成,輸入圖像大小為120×120。學習率初始值設為0.001,每4次迭代減少一次,借助Matlab實現模型訓練與測試。90%數據用來訓練,10%數據用來測試模型。對比文章所設計模型與AlexNet模型以及MobileNet v.1、MobileNet v.2模型的效率。
研究結論:15層網絡對于120×120像素的圖像比23層網絡對于227×227像素的圖像具有更好的性能,而且時間短,但效率低于其他神經網絡模型。
與同類研究相比優缺點:所設計的卷積神經網絡結構與其他模型相比規模小得多,但同時也損失了一部分效率。
文獻閱讀價值:提出了一種可應用于便攜式設備的廢物識別技術,有助于解決城市塑料廢物問題。
[3]Hanxiang Wang,Yanfen Li,L. Minh Dang,Jaesung Ko,Dongil Han,Hyeonjoon Moon. Smartphone-based bulky waste classification using convolutional neural networks[J]. Multimedia Tools and Applications,2020,79(prepublish).
數據來源:從Yahoo,Bing,Google, Baidu, andNaver網站采集到95類圖像數據69737張。
數據處理方法:所有圖像數據儲存為224 × 224的彩色圖像。90%圖像作為訓練集,10%作為測試集。在訓練階段選擇VGG-19、ResNet50和Inception-V3網絡進行參數訓練,對比三個網絡的性能,選擇最優性能的網絡VGG-19。對VGG-19進行微調:預訓練模型的所有卷積層都被初始化,并且前幾個卷積層的參數被凍結。在匯集層和最后一個卷積塊的卷積層之間增加兩個卷積核大小為3×3的卷積層。第五個卷積塊中的卷積層數從4變為6,在兩個全連接層之間添加批量標準化層。采用基于低價敏感直接學習法和集成學習法的三種方法處理圖像數據不平衡問題:通過設置權重參數來減少不平衡數據的影響,被稱為CW_VGG19;從VGG-19模型中提取的特征分別被饋送到XGBoost分類器(XGB_VGG19)和LightGBM分類器(LGB_VGG19)來處理不平衡數據,對比三種方法的性能,選擇LGB_VGG19方法。進一步測試原始VGG-19、微調后的VGG-19和LGB-VGG19的性能,并在垃圾網數據集上與DNN-TC模型進行比較。最后基于Kaggle數據集將不同CNN架構,包括VGG-16、ResNet、Mobile-Net、Inception-Net和Dense-Net進行對比。
研究結論:微調VGG-19是收集數據集的最佳模型,精度為86.19%;LGB_VGG19模型和XGB_VGG19模型比CW_VGG19模型相對穩定,隨著不平衡率的增加,LGB_VGG19模型的AUC值高于XGB_VGG19模型。至于運行時間,LGB_VGG19型號比其他型號快得多。
與同類研究相比優缺點:數據集圖像種類豐富,但最終的VGG-19模型由于參數多,對計算機內存的要求更高。而且在訓練采集的數據集之前,由于采集的數據集較大,對背景復雜的圖像沒有進行圖像預處理操作,對識別結果有影響。
文獻閱讀價值:選用多種方法解決圖像數據不平衡問題,為數據不平衡的處理提供了思路。
[4]王莉,何牧天,徐碩,袁天,趙天翊,劉建飛.基于YOLOv5s網絡的垃圾分類和檢測[J].包裝工程,2021,42(08):50-56.
數據來源:實驗自制了一個垃圾數據集,包括紙盒、塑料瓶、易拉罐、玻璃瓶、藥瓶、電池、塑料袋、廢紙、衣服、磚頭、水果和蔬菜12類垃圾。
數據處理方法:采用數據增廣的方式將樣本個數增至原來的4倍,用labelimg工具對圖片中垃圾物體進行了標注,按照8∶2 的比例將數據集劃分為訓練集和測試集。實驗的運行環境為CPU為Intel i77800X,GPU為GeForceGTX 1080ti,內存為16G,操作系統為ubuntu16.04,安裝CUDA9.0庫文件,開發語言為Python,Pytorch框架。Coco和Voc數據集上的訓練結果初始化Yolov5s的網絡參數,參數訓練采用SGD優化算法,參數設置Batch為32;最大迭代次數為400;動量因子為0.9;權重衰減系數為0.0005。采用余弦退火策略動態調整學習率,初始學習率為0.01。采用GIOU Loss作為損失函數。繪制損失函數圖,將Yolov5s和Yolov3在自制垃圾數據集上進行實驗對比,驗證實驗方法的有效性。
研究結論:基于 YOLOv5s 網絡的垃圾分類檢測模型在不同光照、視角等條件下,檢測準確率高,魯棒性好、計算速度快,有助于促進垃圾處理公司實現智能分揀,提高工作效率。
與同類研究相比優缺點:自制的垃圾分類數據集考慮了不同光照、角度、距離和遮擋情況,使模型更具普適性。
文獻閱讀價值:通過研究基于視覺的垃圾檢測與分類模型,實現對垃圾的自動識別和檢測。
[5]康莊,楊杰,郭濠奇.基于機器視覺的垃圾自動分類系統設計[J].浙江大學學報(工學版),2020,54(07):1272-1280+1307.
數據來源:數據集來源于網上和現實生活拍照,共14種物體4168張圖片。
數據處理方法:利用設計好的垃圾分類硬件系統將所有垃圾分為可回收和不可回收兩大類,其中訓練樣本占60%,即2500張;驗證樣本數量占20%,即834張;測試樣本占20%,即834張。以Inception v3為特征提取網絡,優化算法使用RMSprop替代SGD,使用LSR方法降低過擬合,采用獨熱編碼的形式進行模型訓練。使用2個1×n和n×1的卷積核取代n×n的卷積核,在模型的全連接層進行批標準化操作。采用遷移學習方法對 Inceptionv3模型進行重訓練。基于Image Net數據集進行預訓練,訓練批次大小為32,激活函數選擇ReLU函數,學習率為0.001得到預訓練模型;將Inception v3全連接層前的所有卷積層參數保留不變,將最后的全連接層的輸出由原來1000變為14(14中垃圾種類),在自制垃圾數據集上繼續訓練,得到垃圾識別分類模型。在公共數據集cifar-10上進行驗證,將Inception v3模型與當下較流行的LeNet、Alex Net、Vgg和ResNet模型進行對比,進行105次迭代訓練。訓練完成后比較各模型的準確率和損失值。
研究結論:系統能夠有效地進行垃圾種類的識別和完成垃圾的分類回收。
與同類研究相比優缺點:以研究設計多箱體垃圾桶或者其他結構的垃圾回收裝置,滿足更多目標類別的分揀需求。
文獻閱讀價值:提出基于機器視覺的垃圾自動分類系統,設計垃圾分類的硬件系統,該系統可以滿足可回收和不可回收垃圾分類的要求。
[6]和澤.基于遷移學習的垃圾分類研究[D].寧夏大學,2020.
數據來源:數據集使用華為云的公開數據集,該數據集包括可回收物、廚余垃圾、有害垃圾和其他垃圾四個大類,每類分為若干小類,共40個類別14802張圖片。
數據處理方法:首先通過標注新數據的方法增加4100張圖片,增加了少類別樣本數量。使用Keras提供的ImageDataGenerator方法對樣本數量在300張以下的類別數據進行隨機幾何變換進行數據增強。使每個類別的樣本數均在300張以上,數據集的各類別樣本數據趨于平衡。將數據集進行9:1拆分,90%的樣本當作訓練集,10%的樣本當作測試集進行訓練。采用MobileNetV2模型,設置相同的數據集和參數,進行三組預訓練對比實驗:隨機權重分類器對權重隨機初始化,并進行訓練;訓練全連接層分類器對模型卷積層凍結,訓練全連接層;微調分類器凍結模型的前128層,訓練其余的卷積層和全連接層。每個實驗訓練過程中都迭代200次,采用AdamOptimizer優化函數,學習率設置0.0001,在分類層使用softmax層作為分類器,損失函數使用多分類交叉熵損失函數。使用微調模型的遷移學習方法,采用VGG16、ResNET50與MobileNetV2進行模型對比實驗,采用100張圖片進行推理實驗,并用平均值計算單張圖片推理時間。
研究結論:三個分類器分類效果最好的是微調分類器,最差的是隨機權重分類器,訓練全連接層分類器是處于中間的性能,MobileNetV2模型相對于VGG16、ResNET50模型在移動和嵌入式等便攜式設備上做了明顯的優化,提升了模型精度且降低了存儲空間的要求。最后使用訓練好的MobileNetV2模型對垃圾進行分類。
與同類研究相比優缺點:分別從預訓練模型三種策略和不同模型之間進行對比,基于微調分類器的MobileNetV2模型更具說服力。但是研究所獲取的數據集偏少且類別不平衡。
文獻閱讀價值:以遷移學習為基礎提出了基于輕量型網絡MobileNetV2的垃圾分類算法和基于遷移學習的移動端垃圾分類方案,解決了垃圾類別龐雜和垃圾分類難的問題。
[7]袁建野,南新元,蔡鑫,李成榮.基于輕量級殘差網路的垃圾圖片分類方法[J].環境工程,2021,39(02):110-115.
數據來源:數據集由中國科學院自動化研究所智能服務機器人實驗室所提供,共收集了2400張垃圾圖片信息。訓練集共1920張,每類分別為320張,測試集共510張,每類分別為85張,訓練集和測試集總共分為6類。
數據處理方法:以ResNet50為基礎進行優化構建輕量級網絡,提出最大平均組合池化替換ResNet50的池化層,用深度可分離卷積代替ResNet50中Bottleneck的3×3標準卷積。Mode數量一共4個,Mode數設置為[1,1,1,1],每個Mode的結構都是1×1、3×3、1×1的結構,其中3×3的卷積核用深度可分離卷積替換。實驗batch size設置為32,學習率設置為0.01,每經過一次步長為5時,學習率變為之前的95%,訓練完成迭代100次。對不同的池化層以及不同模型進行對比。
研究結論:提出的最大平均池化輕量級網絡使得網路達到參數量小、計算量小、內存消耗小,運行時間短的目的。
與同類研究相比優缺點:提出的輕量級殘差網路參數更加簡化,但是測試集510張,實際操作測試集只利用了1張,測試集應用數據較少。
文獻閱讀價值:提出的輕量級網絡適用于移動端嵌入式設備的垃圾分類系統應用。
[8]董子源.基于深度學習的垃圾分類系統設計與實現[D].中國科學院大學(中國科學院沈陽計算技術研究所),2020.
數據來源:單幀圖像垃圾檢測:華為公開數據集(國內唯一公開數據集),共14683張垃圾圖像和對應的分類標簽,加上實地拍攝一些垃圾場景中的圖片。
數據處理方法:單幀圖像垃圾檢測:將華為數據集按照不同的大類別和小類別進行組合,保存在相應的文件夾下。通過python手動標注圖像中垃圾的位置信息,利用記錄鼠標位置的相應函數,記錄鼠標畫取的垃圾外接矩形,并將矩形的四個頂點坐標記錄在文本文件中。對數據集中不同小類的垃圾數據進行采樣并標注,得到2000張不同種類的垃圾圖像的數據標注,作為初始的檢測網絡訓練數據集。通過第一輪的訓練,得到了垃圾檢測模型初始結果。使用初始模型對未經訓練的數據集中其他圖像進行檢測,得到垃圾的初始預測位置,并修正檢測錯誤圖像的檢測框作為圖像中目標位置的標簽,得到初始訓練后的擴充數據集。用華為數據集對ResNet101、Inception v3和VGG16主干網絡進行評估,選定ResNet101網絡作為垃圾檢測的基線網絡。在分類階段,將數據增強后的圖像按4:1的比例分為訓練集和測試集,選用ADAM優化算法訓練模型動量系數為0.9,共設50個迭代周期,初始學習率設為0.01,每隔10個迭代周期學習率衰減0.1倍,一階矩估計的指數衰減率為0.99,二階矩估計的指數衰減率為0.999。在ResNet101網絡的不同的Bottle Neck位置僅插入空間注意力模塊、僅插入通道注意力模塊、插入特征融合模塊分別進行對比試驗,對模型的注意力模塊、通道注意力模塊、特征融合模塊分別進行評估。以GCNet作為主干提取網絡并入到SSD作為垃圾檢測網絡的基礎,與加入特征融合與注意力機制的ResNet101網絡相結合。實地拍攝了一些垃圾場景中的圖片(手動繪制檢測框)與華為數據集作為檢測任務的訓練集和測試集。使用批量32來訓練模型,使用0.0001的權重衰減和0.9的動量,SGD優化器,設置Dropout為0.8,在每個conv模塊激活函數后添加BatchNormalization層以防止過擬合以及加快網絡收斂。在相同測試集上對DSSD算法進行評估與改進的SSD算法進行對比。
研究結論:加入了注意力機制、特征融合機制以及殘差預測模塊的SSD在小目標方面,效果明顯好于SSD與DSSD算法,檢測速度方面也明顯好于DSSD,稍微低于SSD。
與同類研究相比優缺點:針對樣本集中類內垃圾形態差異大,背景變化大,不利于分類的情況,本文在分類網絡中加入了空間注意力與通道注意力機制,有效地提升了分類準確率。
文獻閱讀價值:提出了對ResNet101 加入注意力機制和特征融合機制的改進方法,更好地提取到了垃圾圖像中的有用信息,成功地解決了圖片中類內差異大不利于分類的問題。
[9]陳非予,楊婷婷,蔣銘陽.基于深度學習技術的生活垃圾分類模型設計[J].電子元器件與信息技術,2020,4(07):94-96.
數據來源:垃圾圖像數據是在TrashNet數據集的基礎上增加手機拍照以及網絡搜索所得,共確定3727張。
數據處理方法:采用Inception-v3模型在大型圖像分類數據集ImageNet訓練的參數模型。特征提取模型采用預訓練模型的網絡結構和參數,通過輸入并處理一張垃圾圖像,提取圖像2048維向量特征,經softmax回歸完成垃圾圖像分類。訓練數據為數據集中的80%,另20%數據作為測試驗證數據集。在訓練中,設置超參ECHO為50,即迭代訓練訓練數據集50次,每次選取其中16張圖像進行訓練,在每次訓練的圖像輸入階段,將所選圖像進行數據增強處理,初始化學習率為0.001。
研究結論:分類正確率可以達到95.3%,證明了該模型對于實現垃圾分類的有效性。
與同類研究相比優缺點:垃圾圖像涉及種類只包含塑料、金屬、紙板、廢報紙、玻璃、以及廢料六類垃圾圖像,數據類別較少。
文獻閱讀價值:模型通過數據增強方法降低了圖像成像要求,對光照、距離、大小不敏感,具有相當高的魯棒性和泛化能力。
[10]呂程熙.基于深度學習實現自動垃圾分類[J].電子制作,2019(24):36-38.
數據來源:數據集共包含10類物品的圖片共2000張,每一類200張。
數據處理方法:1800張為訓練集,200張為測試集。每一類共180張為訓練集,20張為測試集。將訓練集與測試集的輸入圖片隨機裁減成32×32×3大小的圖片,將圖片信息歸一化。建立基于卷積神經網絡的垃圾分類分類器,學習率為0.01,batch_size為5,對比深度神經網絡和卷積神經網絡的測試結果分類準確度。進一步對數據集進行二分類,劃分為可回收利用和不可回收利用,由十分類變為二分類再次進行實驗。
研究結論:CNN模型的效果要比DNN 模型的效果好。從十分類變為二分類,模型選擇正確的概率大大加大,使得準確率升高。
與同類研究相比優缺點:對比DNN與CNN分類識別效果,證明CNN對垃圾分類識別應用效果更好。但是針對物品的不同部位屬于不同類型的垃圾,還需要增加預識別功能。
文獻閱讀價值:利用算法對圖像識別可以大大提高垃圾分類的效率,為人們的生活帶來便利。
[11]高明,陳玉涵,張澤慧,馮雨,樊衛國.基于新型空間注意力機制和遷移學習的垃圾圖像分類算法[J].系統工程理論與實踐,2021,41(02):498-512.
數據來源:“華為云人工智能大賽垃圾分類挑戰杯”競賽提供的數據集,共包括14000余張垃圾圖片。
數據處理方法:將圖片尺寸統一處理為224×224像素。將數據集隨機劃分為訓練集、驗證集與測試集,訓練集中劃分為包含14372張圖片,驗證集與測試集各包含215張圖片。選擇EfficientNet-B5、ResNet50、DenseNet-169網絡架構分別對華為垃圾分類數據集和ImageNet數據集進行無遷移學習與有遷移學習的訓練,其中預訓練權重均由Keras庫提供,最后選擇EfficientNet-B5作為GANet中的主干網絡結構。運用以EfficientNet-B5為主干的GANet構架,嘗試對提出的新型的像素級空間注意力機制PSATT的基礎結構微調后的模型進行有效性驗證,選擇出性能最好的PSATT結構。將GANet結構的注意力模塊分別換成PSATT、Squeeze-and-Excitation block、Non-Local block與注意增強卷積在ImageNet數據集上進行多次訓練對比。通過訓練策略消融實驗、迭代延長實驗和交叉驗證實驗來檢驗GANet架構在訓練過程中是否出現過擬合情況。依次用ResNet50和DenseNet-169架構替換GANet主干結構中的EfficientNet-B5進行遷移學習,驗證PSATT在不同網絡架構上的適用性。將輸入圖片尺寸設為456×456,借助該比賽的自動化測試系統對GANet進行云端評估,測試集為賽方未公開的4000張盲測圖片。對于GANet模型的訓練中選用RAdam優化,損失函數選擇標簽平滑正則化+Focal loss,用在OCL基礎上提出的階梯形OneCycle控制學習率,在訓練的最后幾個輪次,對于權重平滑選擇進行SWA處理。
研究結論:基于PSATT機制的GANet在細粒度垃圾圖像分類問題中,整體準確率相較對比方法得到了顯著提升。
與同類研究相比優缺點:改進的階梯形OneCycle學習率控制方法和RAdam優化方法的結合使用加快收斂速度,縮短實驗周期;運用標簽平滑和Focalloss緩解樣本不平衡問題;優化方法與階梯形OneCycle學習策略的結合使用緩解了模型收斂階段的不穩定性。但是圖像數據集在不同光照條件、不同終端采集的圖像存在格式、噪音、分辨率等差異。
文獻閱讀價值:針對問題特點,提出了一種新型的像素級空間注意力機制,建立了一套端到端的面向細粒度垃圾圖像分類的遷移學習架構GANet。
[12]王洋.垃圾分類數據的機器學習方法研究[D].黑龍江大學,2020.
數據來源:選擇了來自Kaggle網站上提供的包括濕垃圾、可回收物兩類垃圾的圖像數據,包含訓練集22564張,測試集2513張,練集中包含12565張濕垃圾圖像,9999張可回收垃圾圖像;而測試集中包含1401張濕垃圾圖像,1112張可回收垃圾圖像。
數據處理方法:預處理:對圖像進行灰度化處理,選擇將所有圖像尺寸設為64×64將圖像尺寸歸一化。運用python從兩類垃圾圖像中分別提取顏色特征和紋理特征作為分類依據。選用灰度直方圖作為圖像的顏色特征,將灰度直方圖和圖像標簽作為KNN和SVM算法的輸入。對圖像的LBP和HOG特征向量進行PCA降維以提高計算機運行速度,保留原數據95%的信息提取出降維后的LBP特征和HOG特征。傳統機器學習算法:使用sklearn庫中的KNeighborsClassifier函數搭建KNN模型,距離定義為歐式距離,分別以GH,HOG,LBP特征向量導入模型并分別建模,參數
責任編輯:lq
-
神經網絡
+關注
關注
42文章
4785瀏覽量
101273 -
圖像識別
+關注
關注
9文章
522瀏覽量
38425 -
數據集
+關注
關注
4文章
1210瀏覽量
24860
原文標題:【文獻閱讀筆記】圖像識別與分類
文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論