在自動化和智能技術發展日益成熟的今天,機器視覺系統在許多領域被廣泛應用,包括自動駕駛汽車、智能制造、自動化手術和生物醫學成像等。
這些機器視覺系統大多使用基于普通光學鏡頭模組的相機,在拍攝通常高達具有數百萬像素的圖像或視頻后,通常將其饋送到如GPU等數字邏輯處理單元從而來執行一定的機器學習任務,例如物體識別、分類和場景分割等。
第一,高像素傳感器拍攝帶來大量信息使其難以實現極高速的圖像或視頻數字化存儲和分析,尤其在使用移動設備和電池供電的設備時更是帶來了能耗和性能的平衡問題;
第二,所捕獲的圖像通常包含許多對機器學習任務無用的冗余信息,帶來了后端處理器某種程度上的性能負擔,和資源浪費,從而導致在功耗和內存需求方面效率低下。
第三,在可見光的波長以外的電磁波段制造高像素數圖像傳感器(如手機相機中的傳感器)具有很大的挑戰性,且其成本十分昂貴,因而也限制了機器視覺系統在更長波段(如太赫茲)上的應用。
與常規的基于鏡頭模組的相機不同,該衍射光學神經網絡以被寬帶光照明的物體作為其輸入,將物體的空域特征信息提取并編碼到衍射光的光譜上,而后光譜信號由具有頻譜探測能力的單像素超快傳感器所收集。通過將物體對應的不同的類別分配給不同波長的光頻譜分量,該系統僅使用單像素傳感器探測到的輸出光譜即可自動對輸入對象完成分類,從而無需圖像傳感器陣列和后端數字處理。這種框架實現了全光學推理和機器視覺,在幀速率、內存需求和功耗效率方面具有明顯優勢,這些特點對于移動計算應用而言尤為重要。
審核編輯:湯梓紅
評論