在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

深度學習低光圖像增強綜述(譯)

張嘉振 ? 來源:jf_63760997 ? 作者:jf_63760997 ? 2023-07-03 14:43 ? 次閱讀

論文原文地址:https://arxiv.org/abs/2104.10729v1

github:https://github.com/Li-Chongyi/Lighting-the-Darkness-in-the-Deep-Learning-Era-Open

百度云(word版翻譯及原文pdf):https://pan.baidu.com/s/1zJ7tU-GpT7O3FYvSN-_7ZA?pwd=gzrr 密碼:gzrr

Lighting the Darkness in the Deep Learning Era


Abstract


低光圖像增強 (LLIE)旨在提高在照明較差的環境中捕獲的圖像的感知或可解釋性。該領域的最新進展以基于深度學習的解決方案為主,其中采用了許多學習策略、網絡結構、損失函數、訓練數據等。在本文中,我們提供了一個全面的調研,涵蓋從算法分類到未解決的開放問題的各個方面。為了檢驗現有方法的泛化性,我們提出了一個大規模的低光圖像和視頻數據集,其中圖像和視頻是由不同的手機相機在不同的光照條件下拍攝的。此外,我們首次提供了一個統一的在線平臺,涵蓋了許多流行的 LLIE 方法,其結果可以通過用戶友好的 Web 界面生成。除了在公開可用的數據集和我們提出的數據集上對現有方法進行定性和定量評估外,我們還驗證了它們在黑暗中人臉檢測的性能。本研究中的數據集和在線平臺可以作為未來研究的參考來源,促進該研究領域的發展。本文提出的平臺和收集的方法、數據集和評估指標是公開的,并將定期更新在https://github.com/Li-Chongyi/Lighting-the-Darkness-in-the-Deep-Learning-Era-Open。我們將發布我們的低光圖像和視頻數據集。


1 INTRODUCTION


由于不可避免的環境和/或技術限制(例如照明不足和曝光時間有限),圖像通常在次優照明條件(sub-optimallighting condition)下拍攝,受到背光、非均勻照明和弱照明的影響。此類圖像的美學質量受損,并且造成諸如目標跟蹤、識別和檢測等高級任務信息的不理想的傳輸。圖 1 展示了由次優照明條件引起的退化的一些示例。

弱光增強是圖像處理的基本任務之一。它在不同領域有廣泛的應用,包括視覺監控、自動駕駛和計算攝影。尤其是智能手機攝影已變得非常常見。受限于相機光圈的大小、實時處理的要求以及內存的限制,在昏暗的環境中使用智能手機的相機拍照尤其具有挑戰性。在此類應用中增強低光圖像和視頻是一個令人興奮的研究領域。

傳統的弱光增強方法包括基于直方圖均衡的方法 和基于Retinex 模型的方法 。后者受到的關注相對較多。典型的基于Retinex 模型的方法通過某種先驗或正則化將低光圖像分解為反射分量和照明分量。估計的反射分量被視為增強結果。這種方法有一些局限性:1)將反射分量視為增強結果的理想假設并不總是成立,特別是考慮到各種照明屬性,這可能導致不切實際的增強,例如細節丟失和顏色失真,2)噪聲通常在Retinex 模型中被忽略,因此在增強的結果中保留或放大,3)找到有效的先驗或正則化具有挑戰性。不準確的先驗或正則化可能會導致增強結果中的偽影和顏色偏差,以及 4) 由于其復雜的優化過程,運行時間相對較長。

wKgaomSibheASYO9AAOVEZtojIU182.png

近年來,自第一個開創性工作LLNet[1]以來,基于深度學習的 LLIE 取得了令人矚目的成功。與傳統方法相比,基于深度學習的解決方案具有更好的準確性、魯棒性和速度,因此近年來受到越來越多的關注。圖 2 顯示了基于深度學習的 LLIE 方法的一個簡明里程碑。如圖所示,自 2017 年以來,基于深度學習的解決方案的數量逐年增長。這些解決方案中使用的學習策略包括監督學習 (SL)、強化學習 (RL)、無監督學習 (UL)、零樣本學習 (ZSL) 和半監督學習 (SSL)。請注意,我們僅在圖 2 中報告了一些具有代表性的方法。實際上,從 2017 年到 2020 年,關于基于深度學習的方法的論文有 100 多篇,超過了常規方法的總數。此外,雖然一些通用的照片增強方法 [38]、[39]、[40]、[41]、[42]、[43]、[44]、[45]、[46] 可以將圖像的亮度提高到在某種程度上,我們在本次調查中省略了它們,因為它們并非旨在處理各種低光照條件。我們專注于專為弱光圖像和視頻增強而開發的基于深度學習的解決方案。

盡管深度學習主導了 LLIE 的研究,但缺乏對基于深度學習的解決方案的深入和全面的調查。文獻[47]、[48] 為兩篇 LLIE綜述文章。與主要回顧傳統 LLIE 方法的 [47] 和從人類和機器視覺的角度探索幾種傳統和基于深度學習的 LLIE 方法的實驗性能的 [48] 相比,我們的調查具有以下獨特特征:1)我們的工作是第一個系統全面地回顧基于深度學習的 LLIE 的最新進展。我們在各個方面進行了深入的分析和討論,涵蓋學習策略、網絡結構、損失函數、訓練數據集、測試數據集、評估指標等。2)我們提出了一個包含由在不同的照明條件下使用不同的設備來評估現有方法的泛化性。因此,我們為關鍵的開放性問題、挑戰和未來方向提供見解。此外,據我們所知,我們是第一個比較 LLIE 方法在不同現實世界場景中捕獲的低光視頻上性能的。3) 我們提供了一個在線平臺,涵蓋了許多流行的基于深度學習的 LLIE 方法,結果可以通過用戶友好的 Web 界面生成。這個統一的平臺解決了比較不同深度學習平臺中實現的不同方法并需要不同硬件配置的問題。使用我們的平臺,沒有任何 GPU 的人可以在線評估任何輸入圖像的不同方法的結果。

我們希望我們的調查能夠提供新的見解和啟發,以促進對基于深度學習的 LLIE 的理解,促進對提出的未解決問題的研究,并加快該研究領域的發展。


2 DEEP LEARNING-BASED LLIE


2.1 Problem Definition


我們首先給出基于深度學習的 LLIE 問題的通用公式。對于寬高的低光圖像,過程可以建模為:

其中是增強結果,表示具有可訓練參數的網絡。深度學習的目的是找到使誤差最小的最優網絡參數:

其中是 ground truth,損失函數驅動網絡的優化。在網絡訓練過程中可以使用監督損失和無監督損失等各種損失函數。更多細節將在第 3 節中介紹。


2.2 Learning Strategies


根據不同的學習策略,我們將現有的 LLIE 方法分為監督學習、強化學習、無監督學習、零樣本學習和半監督學習。圖 3 給出了從不同角度進行的統計分析。在下文中,我們回顧了每種策略的一些代表性方法。

監督學習。對于基于監督學習的 LLIE 方法,它們可以進一步分為端到端方法、基于深度Retinex 的方法和現實數據驅動方法。

第一個基于深度學習的 LLIE 方法 LLNet[1] 采用堆疊稀疏去噪自動編碼器 [49] 的變體同時對低光圖像進行增亮和去噪。這項開創性的工作激發了 LLIE 中端到端網絡的使用。呂等人。[3] 提出了一種端到端的多分支增強網絡(MBLLEN)。MBLLEN通過特征提取模塊、增強模塊和融合模塊提取有效的特征表示來提高 LLIE 的性能。同一作者 [15] 提出了其他三個子網絡,包括Illumination-Net、Fusion-Net 和 Restoration-Net,以進一步提高性能。任等人。[12] 設計了一個更復雜的端到端網絡,包括用于圖像內容增強的編碼器-解碼器網絡和用于圖像邊緣增強的循環神經網絡。與 [12] 類似,Zhu 等人。[16] 提出了一種稱為 EEMEFN的方法。EEMEFN包括兩個階段:多曝光融合和邊緣增強。為 LLIE 提出了一種多曝光融合網絡 TBEFN[20]。TBEFN在兩個分支中估計一個傳遞函數,可以得到兩個增強結果。最后,采用簡單的平均方案來融合這兩個圖像,并通過細化單元進一步細化結果。此外,在 LLIE 中引入了金字塔網絡(LPNet) [18]、殘差網絡 [19] 和拉普拉斯金字塔 [21](DSLR)。這些方法通過 LLIE 常用的端到端網絡結構學習有效和高效地集成特征表示。最近,基于觀察到噪聲在不同頻率層中表現出不同程度的對比度,Xu 等人。[50] 提出了一種基于頻率的分解和增強網絡。該網絡在低頻層通過噪聲抑制恢復圖像內容,同時在高頻層推斷細節。

與在端到端網絡中直接學習增強結果相比,由于物理上可解釋的Retinex 理論 [51]、[52],基于深度Retinex 的方法在大多數情況下享有更好的增強性能。基于深度視網膜的方法通常通過專門的子網絡分別增強 il 亮度分量和反射率分量。在 [4] 中提出了一個Retinex-Net。Retinex-Net 包括一個Decom-Net,它將輸入圖像拆分為與光無關的反射率和結構感知平滑照明,以及一個調整照明圖以進行低光增強的Enhance-Net。為了減少計算負擔,Li 等人。[5] 提出了一種用于弱光照圖像增強的輕量級LightenNet,它僅由四層組成。LightenNet 將弱光照圖像作為輸入,然后估計其光照圖。基于Retinex理論[51]、[52],通過將光照圖除以輸入圖像得到增強圖像。為了準確估計光照圖,Wang 等人。[53] 通過他們提出的DeepUPE 網絡提取全局和局部特征以學習圖像到照明的映射。張等人。[11] 分別開發了三個子網絡,用于層分解、反射率恢復和光照調整,稱為 KinD。此外,作者通過多尺度照明注意模塊減輕了 KinD[11] 結果中留下的視覺缺陷。改進后的 KinD 稱為 KinD++[54]。為了解決基于深度Retinex 的方法中忽略噪聲的問題,Wang 等人。[10] 提出了一種漸進式Retinex 網絡,其中 IM-Net估計光照,NM-Net 估計噪聲水平。這兩個子網絡以漸進的機制工作,直到獲得穩定的結果。范等人。[14] 集成語義分割和Retinex 模型,以進一步提高實際案例中的增強性能。核心思想是使用語義先驗來指導照明分量和反射分量的增強。

盡管上述方法可以獲得不錯的性能,但由于使用了合成訓練數據,它們在真實的低光照情況下表現出較差的泛化能力。為了解決這個問題,一些方法試圖生成更真實的訓練數據或捕獲真實數據。蔡等人。[6]構建了一個多曝光圖像數據集,其中不同曝光水平的低對比度圖像有其對應的高質量參考圖像。每個高質量的參考圖像都是通過從不同方法增強的 13 個結果中主觀選擇最佳輸出而獲得的。此外,在構建的數據集上訓練頻率分解網絡,并通過兩階段結構分別增強高頻層和低頻層。陳等人。[2] 收集一個真實的低光圖像數據集 (SID) 并訓練 U-Net[55] 以學習從低光原始數據到 sRGB 空間中相應的長曝光高質量參考圖像的映射。此外,陳等人。[8] 將 SID 數據集擴展到低光視頻 (DRV)。DRV 包含具有相應長時間曝光基本事實的靜態視頻。為了保證處理動態場景視頻的泛化能力,提出了一種孿生網絡。為了增強黑暗中的運動物體,Jiang 和 Zheng[9] 設計了一個同軸光學系統來捕獲時間同步和空間對齊的低光和高光視頻對(SMOID)。與 DRV 視頻數據集 [8] 不同,SMOID 視頻數據集包含動態場景。為了在 sRGB 空間中學習從原始低光視頻到高光視頻的映射,提出了一種基于 3DU-Net 的網絡。考慮到以前的低光視頻數據集的局限性,例如 DRV 數據集 [8] 僅包含統計視頻和 SMOID 數據集 [9] 僅具有 179 個視頻對,Triantafyllidou等人。[17] 提出了一種低光視頻合成管道,稱為 SIDGAN。SIDGAN可以通過具有中間域映射的半監督雙CycleGAN 生成動態視頻數據(RAW-to-RGB)。為了訓練這個管道,從Vimeo-90K 數據集 [56] 中收集了真實世界的視頻。低光原始視頻數據和相應的長曝光圖像是從 DRV 數據集 [8] 中采樣的。利用合成的訓練數據,這項工作采用與 [2] 相同的 U-Net 網絡結構進行低光視頻增強。

強化學習。在沒有配對訓練數據的情況下,Yu 等人。[22] 通過強化對抗學習來學習曝光照片,命名為 DeepExposure。具體地,首先根據曝光將輸入圖像分割成子圖像。對于每個子圖像,策略網絡基于強化學習順序學習局部曝光。獎勵評估函數通過對抗學習來近似。最后,利用每次局部曝光對輸入進行修飾,從而獲得不同曝光下的多張修飾圖像。最終的結果是通過融合這些圖像來實現的。

無監督學習。在配對數據上訓練深度模型可能會導致過度擬合和泛化能力有限。為了解決這個問題,在 [23] 中提出了一種名為EnligthenGAN 的無監督學習方法。EnlightenGAN 采用注意力引導的 U-Net[55] 作為生成器,并使用全局-局部鑒別器來確保增強的結果看起來像真實的正常光圖像。除了全局和局部對抗性損失外,還提出了全局和局部自特征保持損失來保留增強前后的圖像內容。這是穩定訓練這種單路徑生成對抗網絡(GAN)結構的關鍵點

Zero-shot Learning。監督學習、強化學習和無監督學習方法要么泛化能力有限,要么訓練不穩定。為了解決這些問題,提出了零樣本學習來僅從測試圖像中學習增強。注意,低層視覺任務中的零樣本學習概念是用來強調該方法不需要配對或非配對的訓練數據,這與它在高層視覺任務中的定義不同。張等人。[24] 提出了一種零樣本學習方法,稱為 ExCNet,用于背光圖像恢復。首先使用一個網絡來估計最適合輸入背光圖像的 S 曲線。一旦估計了 S 曲線,輸入圖像就會使用引導濾波器 [57] 分為基礎層和細節層。然后通過估計的 S 曲線調整基礎層。最后,Webercontrast [58] 用于融合細節層和調整后的基礎層。為了訓練 ExCNet,作者將損失函數表述為基于塊的能量最小化問題。朱等人。[26] 提出了一個三分支 CNN,稱為 RRDNet,用于恢復曝光不足的圖像。RRDNet通過迭代最小化專門設計的損失函數將輸入圖像分解為照明、反射和噪聲。為了驅動零樣本學習,提出了結合視網膜重構損失、紋理增強損失和光照引導噪聲估計損失的方法。與基于圖像重建的方法 [1]、[3]、[4]、[11]、[12]、[21]、[54] 不同,在 [25] 中提出了一種深度曲線估計網絡零 DCE ]。Zero-DCE 將光增強制定為圖像特定曲線估計的任務,它將低光圖像作為輸入并產生高階曲線作為其輸出。這些曲線用于對輸入的動態范圍進行逐像素調整,以獲得增強的圖像。此外,還提出了一種加速和輕型版本,稱為Zero-DCE++ [59]。這種基于曲線的方法在訓練期間不需要任何配對或非配對數據。他們通過一組非參考損失函數實現零參考學習。此外,與需要大量計算資源的基于圖像重建的方法不同,圖像到曲線的映射只需要輕量級網絡,從而實現快速的推理速度。半監督學習。為了結合監督學習和無監督學習的優勢,近年來提出了半監督學習。楊等人。[27]提出了一種半監督深度遞歸帶網絡(DRBN)。DRBN首先在監督學習下恢復增強圖像的線性波段表示,然后通過基于無監督對抗學習的可學習線性變換重新組合給定波段來獲得改進的波段表示

觀察圖 3(a),我們可以發現監督學習是基于深度學習的 LLIE 方法中的主流。比例達到77%。這是因為當 LOL[4]、SID [2]和各種低光/正常光圖像合成方法等配對訓練數據公開可用時,監督學習相對容易。然而,基于監督學習的方法面臨一些挑戰:1) 收集涵蓋各種現實世界弱光條件的大規模配對數據集是困難的,2) 合成的弱光圖像不能準確地表示現實世界的照度諸如空間變化的照明和不同級別的噪聲等條件,以及 3) 在配對數據上訓練深度模型可能會導致對具有不同照明屬性的真實世界圖像的過度擬合和有限泛化

因此,一些方法采用無監督學習、強化學習、半監督學習和零樣本學習來繞過監督學習中的挑戰。盡管這些方法實現了競爭性能,但它們仍然存在一些局限性:1)對于無監督學習/半監督學習方法,如何實現穩定的訓練、避免顏色偏差以及建立跨域信息的關系對當前的方法提出了挑戰 , 2) 對于強化學習方法,設計有效的獎勵機制和實施高效穩定的訓練是錯綜復雜的,以及 3) 對于零樣本學習方法,非參考損失的設計在保色、去除偽影時非常重要,并且應該考慮梯度反向傳播。

3TECHNICAL REVIEW AND DISCUSSION


在本節中,我們首先總結表 1 中具有代表性的基于深度學習的 LLIE 方法,然后分析和討論它們的技術特點。

表1:基于深度學習的代表性方法的基本特征總結,包括學習策略、網絡結構、損失函數、訓練數據集、測試數據集、評估指標、輸入數據格式以及模型是否基于Retinex。“simulated”是指通過與合成訓練數據相同的方法模擬測試數據。“self-selected”代表作者選擇的真實世界圖像。“#P”表示可訓練參數的數量。“-”表示該項目不可用或未在論文中注明。

wKgZomSibhiAOlyfAAg_GEkiGM8726.png

wKgaomSibhiAF9XaAAJxkpKZlUM084.png

3.1 Network Structure


現有模型中使用了多種網絡結構和設計,從基本的 U-Net、金字塔網絡、多級網絡到頻率分解網絡。分析圖3(b)可以看出,LLIE中主要采用U-Net和類U-Net網絡。這是因為 U-Net 可以有效地集成多尺度特征,并同時使用低級和高級特征。這些特性對于實現令人滿意的低光增強是必不可少的。

然而,在當前的 LLIE 網絡結構中可能會忽略一些關鍵問題:

1)在經過幾個卷積層后,由于其像素值較小,極低光圖像的梯度在梯度反向傳播過程中可能會消失,這會降低增強性能并影響網絡訓練的收斂性。

2)類 U-Net 的網絡中使用的跳躍連接可能會在最終結果中引入噪聲和冗余特征。應該仔細考慮如何有效濾除噪聲并融合低級和高級特征。

3)雖然為 LLIE 提出了一些設計和組件,但大部分都是從相關的低級視覺任務中借用或修改的。在設計網絡結構時應考慮低光數據的特性。


3.2 Combination of Deep Model and Retinex Theory


如圖 3(c) 所示,幾乎 1/3 的方法將深度網絡的設計與Retinex 理論相結合,例如,設計不同的子網絡來估計Retinex 模型的組件,并估計光照圖來指導學習網絡。盡管這種組合可以建立基于深度學習和基于模型的方法之間的聯系,但它們各自的弱點可能會引入最終模型中:1)反射率是基于Retinex 的 LLIE 方法中使用的最終增強結果的理想假設仍然會影響最終結果,以及 2)盡管引入了Retinex 理論,但深度網絡中過度擬合的風險仍然存在。因此,當研究人員將深度學習與Retinex 理論相結合時,應該仔細考慮如何取其精華,去其糟粕。


3.3 Data Format


如圖 3(d) 所示,原始數據格式Raw在大多數方法中占主導地位。盡管原始數據僅限于特定傳感器,例如基于拜耳模式的傳感器,但數據涵蓋更廣的色域和更高的動態范圍。因此,在原始數據上訓練的深度模型通常可以恢復清晰的細節和高對比度,獲得鮮艷的色彩,減少噪聲和偽影的影響,并提高極低光圖像的亮度。盡管如此,RGB 格式也用于某些方法,因為它通常是智能手機相機、Go-Pro 相機和無人機相機產生的最終圖像形式。在未來的研究中,從不同模式的原始數據到RGB格式的平滑轉換將有可能結合RGB數據的便利性和LLIE對原始數據的高質量增強的優勢。

3.4 Loss Function

在圖3(e)中,LLIE模型中常用的損失函數包括重建損失(L1、L2、SSIM)、感知損失和平滑損失。此外,根據不同的需求和策略,還采用了顏色損失、曝光損失和對抗損失。我們將代表性損失函數詳述如下。

重建損失(ReconstructionLoss)。常用的 L1、L2 和 SSIM 損失可以表示為:

其中和分別代表ground truth和增強結果,、和分別是輸入圖像的高度、寬度和通道。均值和方差分別由和表示。根據 SSIM 損失 [60] 中的默認值,將常數和設置為 0.02 和 0.03。不同的重建損失有其優點和缺點。損失傾向于懲罰較大的錯誤,但可以容忍小錯誤。損失可以很好地保留顏色和亮度,因為無論局部結構如何,都會對誤差進行同等加權。損失很好地保留了結構和紋理。詳細分析見[61]。

感知損失。[62]提出了感知損失來限制與特征空間中的基本事實相似的結果。損失提高了結果的視覺質量。它被定義為增強結果的特征表示與對應的ground-truth的特征表示之間的歐幾里得距離。特征表示通常是從在ImageNet 數據集 [64] 上預訓練的 VGG 網絡 [63] 中提取的。感知損失可以表示為:

其中、和分別是特征圖的高度、寬度和通道數。函數表示從 VGG 網絡的第個卷積層(在 ReLU 激活之后)提取的特征表示。

平滑度損失。為了去除增強結果中的噪聲或保留相鄰像素的關系,通常使用平滑損失(TV loss)來約束增強結果或估計的光照圖,可以表示為:

其中和分別是水平和垂直梯度操作。

對抗性損失

。為了鼓勵增強的結果與參考圖像區分開來,對抗性學習解決了以下優化問題:其中生成器試圖生成“假”圖像來欺騙鑒別器。鑒別器試圖將“假”圖像與參考圖像區分開來。輸入是從源流形中采樣的,而是從目標流形中采樣的任意參考圖像。為了優化生成器,應該最小化這個損失函數:其中輸出增強的結果。為了優化鑒別器,這個損失函數被最小化:

曝光損失。作為基于的方法中的關鍵損失函數之一,曝光損失衡量了在沒有配對或未配對圖像作為參考圖像的情況下增強結果的曝光水平,可以表示為:

其中M是固定大小(默認為16×16)的非重疊區域的數量,Y是增強結果中區域的平均強度值。

LLIE 網絡中常用的損失函數,如 L1、L2、SSIM、感知損失,也用于圖像重建網絡中,用于圖像超分辨率 [65]、圖像去噪 [66]、圖像去訓練(Imagedetraining) [67]、[68 ]和圖像去模糊[69]。與這些通用損失不同,為 LLIE 專門設計的曝光損失激發了非參考損失的設計。非參考損失不依賴參考圖像,從而使模型具有更好的泛化能力。在設計損失函數時考慮圖像特征是一項正在進行的研究。


3.5 Training Datasets


圖 3(f) 報告了使用各種配對訓練數據集來訓練低光增強網絡。這些數據集包括真實世界捕獲的數據集和合成數據集。我們將它們列在表 2 中,并詳細介紹如下。

Gamma 校正模擬

。由于其非線性和簡單性,伽瑪校正用于調整視頻或靜止圖像系統中的亮度或三色值。它由冪律表達式定義。

其中輸入 和輸出通常在 [0,1] 范圍內。通常情況下,常數設置為 1。功率 控制輸出的亮度。直觀地說,輸入在<1時變亮, ??>1時變暗。輸入可以是圖像的三個 RGB 通道,也可以是與亮度相關的通道,例如 CIELab顏色空間中的 通道和 顏色空間中的 通道。使用校正調整亮度相關通道后,顏色空間中的相應通道按等比例調整,以避免產生偽影和顏色偏差。

為了模擬在真實世界的低光照場景中拍攝的圖像,將高斯噪聲、泊松噪聲或真實噪聲添加到 校正圖像中。使用 校正合成的低光圖像可以表示為:

其中代表噪聲模型,代表值的校正函數,是正常光和高質量圖像或亮度相關通道。雖然該函數通過改變 值來產生不同光照水平的微光圖像,但由于非線性調整,它往往會在合成的微光圖像中引入偽影和顏色偏差。

wKgZomSibhmAYlPMAAGu1Q3KJvc979.png

隨機照明模擬

。根據Retinex 模型,圖像可以分解為反射分量和光照分量。基于圖像內容與光照分量無關且光照分量中的局部區域具有相同強度的假設,可以通過下式獲得弱光圖像。其中是范圍內的隨機光照值。可以將噪聲添加到合成圖像中。這種線性函數避免了偽影,但強假設要求合成僅在局部區域具有相同亮度的圖像塊上運行。由于上下文信息的疏忽,在此類圖像塊上訓練的深度模型可能會導致次優性能。

LOL。LOL[4] 是第一個在真實場景中拍攝的配對低光/正常光圖像數據集。通過改變曝光時間和 ISO 來收集低光圖像。LOL 包含 500 對以 RGB 格式保存的大小為400×600 的低光/正常光圖像。

SCIE。SCIE 是低對比度和良好對比度圖像對的多曝光圖像數據集。它包括 589 個室內和室外場景的多重曝光序列。每個序列有3到18張不同曝光級別的低對比度圖像,因此總共包含4,413張多重曝光圖像。589張高質量的參考圖像是從13種具有代表性的增強算法的結果中選擇得到的。即許多多重曝光圖像具有相同的高對比度參考圖像。圖像分辨率介于3,000×2,000 和6,000×4,000 之間。SCIE 中的圖像以 RGB 格式保存。

MIT-Adobe FiveK。MIT-Adobe FiveK [70] 被收集用于全局色調調整,但已用于 LLIE。這是因為輸入圖像具有低光和低對比度。MIT-Adobe FiveK 包含 5,000 張圖像,每張圖像都由 5 位訓練有素的攝影師進行美化,以呈現視覺上令人愉悅的效果,類似于明信片。因此,每個輸入都有五個修飾結果。通常,專家C的結果在訓練階段被用作地面ground-truth圖像。圖片都是Raw原始格式。要訓練能夠處理 RGB 格式圖像的網絡,需要使用 AdobeLightroom 對圖像進行預處理,并按照此過程將其保存為 RGB 格式。圖像通常被調整為長邊為500像素的大小。

SID。SID[2] 包含 5,094 張原始短曝光圖像,每張圖像都有對應的長曝光參考圖像。不同的長曝光參考圖像的數量為424。換句話說,多個短曝光圖像對應于相同的長曝光參考圖像。這些圖像是在室內和室外場景中使用兩臺相機拍攝的:索尼 α7S II和富士 X-T2。因此,圖像具有不同的傳感器模式(索尼相機的拜耳傳感器和富士相機的 APS-CX-Trans 傳感器)。索尼的分辨率為4,240×2,832,富士的分辨率為6,000×4,000。通常,長曝光圖像由 libraw(一個原始圖像處理庫)處理并保存在 sRGB 顏色空間中,并隨機裁剪512×512 塊進行訓練。

VE-LOL。VE-LOL[48] 包含兩個子集:用于訓練和評估 LLIE 方法的配對 VE-LOLL 和用于評估 LLIE 方法對人臉檢測效果的未配對VE-LOL-H。具體來說,VE-LOLL 包括 2,500 個配對圖像。其中,1000雙是合成的,1500雙是真實的。VE-LOL-H 包括 10,940張未配對的圖像,其中人臉是用邊界框手動注釋的。

DRV。DRV[8] 包含 202 個靜態原始視頻,每個視頻都有一個對應的長曝光ground-truth。每個視頻在連續拍攝模式下以每秒大約 16 到 18 幀的速度拍攝,最多可拍攝 110 幀。這些圖像由索尼 RX100VI 相機在室內和室外場景中拍攝,因此全部采用 BayerRaw 格式。分辨率為3,672×5,496。

SMOID。SMOID[9] 包含 179 對由同軸光學系統拍攝的視頻,每對有 200 幀。因此,SMOID 包括 35,800個極低光BayerRaw 圖像及其相應的光照良好的 RGB 計數器。SMOID 中的視頻由不同光照條件下的移動車輛和行人組成。

一些問題對上述配對訓練數據集提出了挑戰:1)由于合成數據和真實數據之間的差距,在合成數據上訓練的深度模型在處理真實世界的圖像和視頻時可能會引入偽影和顏色偏差,2)數據的規模和多樣性,真實的訓練數據不能令人滿意,因此一些方法會結合合成數據來增加訓練數據。這可能會導致次優增強,并且 3) 輸入圖像和相應的 ground-truth可能會由于運動、硬件和環境的影響而存在錯位。這將影響使用逐像素損失函數訓練的深度網絡的性能。


3.6 Testing Datasets


除了成對數據集[2]、[4]、[6]、[8]、[9]、[48]、[70]中的測試子集外,還有一些從相關工作中收集或常見的測試數據用于實驗比較。它們是從 LIME[32]、NPE[30]、MEF[71]、DICM[72] 和 VV2 收集的。此外,一些數據集,如黑暗中的人臉檢測[73]和低光圖像中的檢測和識別[74]被用來測試LLIE對高級視覺任務的影響。我們總結了表 3 中常用的測試數據集,并介紹了具有代表性的測試數據集如下。

BBD-100K。

BBD-100K [75] 是最大的駕駛視頻數據集,包含 10,000個視頻,涵蓋一天中許多不同時間、天氣條件和駕駛場景的 1,100 小時駕駛體驗,以及 10 個任務注釋。在 BBD-100K夜間拍攝的視頻用于驗證 LLIE 對高級視覺任務的影響以及在真實場景中的增強性能。

ExDARK。

ExDARK[74] 數據集是為低光圖像中的對象檢測和識別而構建的。 ExDARK數據集包含 7,363 張從極低光環境到暮光環境的低光圖像,其中包含 12 個對象類,并使用圖像類標簽和局部對象邊界框進行注釋。黑臉。 DARKFACE [73] 數據集包含 6,000 張夜間室外場景中拍攝的低光圖像,每張圖像都標有人臉邊界框。從圖 3(g) 中,我們可以觀察到人們更喜歡在實驗中使用自己收集的測試數據。主要原因有三點:1)除了成對數據集的測試劃分,沒有公認的評估基準,2)常用的測試集存在規模小(部分測試集僅包含10張圖像)等缺點 )、重復的內容和光照特性,以及未知的實驗設置,以及 3) 一些常用的測試數據最初不是為了評估 LLIE 而收集的。一般來說,當前的測試數據集可能會導致偏差和不公平的比較。

3.7 Evaluation Metrics

除了基于人類感知的主觀評估外,圖像質量評估 (IQA) 指標,包括完全參考和非參考 IQA 指標,能夠客觀地評估圖像質量。此外,用戶研究、可訓練參數的數量、FLOP、運行時和基于應用程序的評估也反映了 LLIE 模型的性能,如圖 3(h) 所示。我們將詳細介紹它們如下。

PSNR 和 MSE

。 PSNR 和 MSE 是低級視覺任務中廣泛使用的 IQA 指標。它們總是非負的,更接近無限(PSNR)和零(MSE)的值更好。然而,像素級 PSNR 和 MSE 可能無法準確地指示圖像質量的視覺感知,因為它們忽略了相鄰像素的關系。

MAE

。 MAE 表示平均絕對誤差,作為成對觀測值之間誤差的度量。 MAE值越小,相似度越高。

SSIM

。 SSIM 用于衡量兩幅圖像之間的相似度。它是一種基于感知的模型,將圖像退化視為結構信息的感知變化。值為1只有在兩組相同數據的情況下才能達到,表明結構相似。

LOE

。 LOE 表示反映增強圖像自然度的亮度順序誤差。對于 LOE,LOE 值越小,亮度順序保持得越好。應用。除了提高視覺質量外,圖像增強的目的之一是服務于高級視覺任務。因此,LLIE 對高級視覺應用程序的影響通常被檢查以驗證不同方法的性能。目前在 LLIE 中使用的評估方法需要在幾個方面進行改進:1)雖然 PSNR、MSE、MAE 和 SSIM 是經典和流行的指標,但它們距離捕捉人類的真實視覺感知還很遠,2)一些指標最初不是為低光圖像設計的。它們用于評估圖像信息和對比度的保真度。使用這些指標可能會反映圖像質量,但它們與弱光增強的真正目的相去甚遠,3)缺乏專門為弱光圖像設計的指標,除了LOE指標。此外,沒有用于評估低光視頻增強的指標,4) 期望能有一個可以平衡人類視覺和機器感知的指標。

4 BENCHMARKING AND EMPIRICAL ANALYSIS

本節提供實證分析,并強調基于深度學習的 LLIE 中的一些關鍵挑戰。為了便于分析,我們提出了一個大規模的低光圖像和視頻數據集來檢查不同基于深度學習的解決方案的性能。此外,我們開發了第一個在線平臺,可以通過用戶友好的網絡界面生成基于深度學習的 LLIE 模型的結果。在本節中,我們對幾個基準和我們提出的數據集進行了廣泛的評估。在實驗中,我們比較了13 種具有代表性的方法,包括 7 種基于監督學習的方法(LLNet[1]、LightenNet[5]、Retinex-Net[4]、MBLLEN[3]、KinD[11]、KinD++[54]、 TBEFN[20]、DSLR[21])、一種基于無監督學習的方法(EnlightenGAN[23])、一種基于半監督學習的方法(DRBN[27])和三種基于零樣本學習的方法( ExCNet[24]、零 DCE[25]、RRDNet[26])。我們使用公開可用的代碼來生成結果以進行公平比較。

4.1 A New Low-Light Image and Video Dataset

我們提出了一個名為LoLi-Phone 的大規模低光圖像和視頻數據集,以全面徹底地驗證 LLIE 方法的性能。LoLi-Phone 是同類中最大、最具挑戰性的真實世界測試數據集。特別是,該數據集包含由 18 種不同手機相機拍攝的 120 個視頻(55,148 張圖像),包括 iPhone6s、iPhone7、iPhone7Plus、iPhone8Plus、iPhone11、iPhone11 Pro、iPhoneXS、iPhoneXR、iPhoneSE、小米小米 9、小米 Mix 3、Pixel 3、Pixel 4、OppoR17、VivoNex、LG M322、一加 5T、華為 Mate20 Pro 在各種光照條件下(例如弱光、曝光不足、月光、暮光、黑暗、極暗)、背光、非均勻光和彩色光。)在室內和室外場景中。表 4 提供了LoLi-Phone 數據集的摘要。我們在圖 4 中展示了 LoLi 電話數據集的幾個示例。我們將發布建議的LoLi-Phone 數據集。

wKgaomSibhqAF909AAL5L65XeLw405.png

wKgZomSibhuACx4qAAsFSmMojcY451.png

Fig. 4: Several images sampled from the proposedLoLiPhone dataset. The images and videos are taken by different devices underdiverse lighting conditions and scenes.

這個具有挑戰性的數據集是在真實場景中收集的,包含各種低光圖像和視頻。因此,它適用于評估不同低光圖像和視頻增強模型的泛化能力。值得注意的是,該數據集可用作基于無監督學習的方法的訓練數據集和合成方法的參考數據集,以生成逼真的低光圖像和視頻。

4.2 Online Evaluation Platform

不同的深度模型可以在不同的深度學習平臺上實現,例如 Caffe、Theano、TensorFlow和PyTorch。因此,不同的算法需要不同的配置、GPU 版本和硬件規格。這樣的要求讓很多研究人員望而卻步,尤其是對于剛接觸這個領域甚至可能沒有 GPU 資源的初學者。為了解決這些問題,我們開發了一個名為 LoLiPlatform 的 LLIE 在線平臺。該平臺可在http://mc.nankai.edu. cn/ll/ 。

到目前為止,LoLi 平臺涵蓋了 13 種流行的基于深度學習的 LLIE 方法,包括 LLNet[1]、LightenNet[5]、Retinex-Net[4]、EnlightenGAN[23]、MBLLEN[3]、KinD [11]、KinD++[54]、TBEFN[20]、DSLR[21]、DRBN[27]、ExCNet[24]、Zero-DCE[25] 和 RRDNet[26],通過一個用戶友好的網絡界面,可以將任何輸入的結果輸出。我們會定期在這個平臺上提供新的方法。我們希望這個 LoLi 平臺能夠通過為用戶提供靈活的界面來運行現有的基于深度學習的 LLIE 方法并開發他們自己的新 LLIE 方法,從而為不斷發展的研究社區服務。


4.3 Benchmarking Results

為了定性和定量地評估不同的方法,除了提出的LoLi-Phone 數據集外,我們還采用了常用的 LOL[4] 和MIT-Adobe FiveK [70] 數據集。更多視覺結果可以在補充材料中找到。此外,不同手機攝像頭拍攝的真實微光視頻對比結果可以在YouTube上找到

https://www.youtube.com/watch?v=Elo9TkrG5Oo&t=6s

.具體來說,我們從LoLi-Phone 數據集的每個視頻中平均選擇 5 張圖像,形成一個包含 600 張圖像的圖像測試數據集(記為LoLi-Phone imgT)。此外,我們從每個手機品牌的LoLi-Phone 數據集的視頻中隨機選擇一個視頻,形成一個包含 18 個視頻的視頻測試數據集(記為LoLi-Phone-vidT)。我們將LoLi-Phone-imgT 和 LoLi-Phone-vidT 中幀的分辨率減半,因為一些基于深度學習的方法無法處理測試圖像和視頻的全分辨率。對于 LOL 數據集,我們采用包含 15 個在真實場景中捕獲的低光圖像的原始測試集進行測試,記為LOL-test。對于MIT-Adobe FiveK 數據集,我們按照 [40] 中的處理將圖像解碼為 PNG 格式,并使用Lightroom 將它們調整為具有 512 像素的長邊。我們采用與[40]相同的測試數據集,麻省理工學院 Adobe FiveK-test,包括 500 張圖像,其中專家 C 的修飾結果作為相應的基本事實。

定性比較

(QualitativeComparison)。我們首先在圖 5 和圖 6 中展示了不同方法對從LOL-test 和MIT-Adobe FiveK-test 數據集采樣的圖像的結果。如圖 5 所示,所有方法都提高了輸入圖像的亮度和對比度。然而,當將結果與基本事實進行比較時,它們都沒有成功地恢復輸入圖像的準確顏色。特別是,LLNet[1] 會產生模糊結果。LightenNet [5] 和 RRDNet[26] 產生曝光不足的結果,而 MBLLEN[3] 和 ExCNet[24] 往往會過度曝光圖像。 KinD[11]、KinD++[54]、TBEFN[20]、DSLR[21]、EnlightenGAN[23] 和 DRBN[27] 引入了明顯的偽影。在圖 6 中,LLNet [5]、KinD++ [54]、TBEFN [20] 和 RRDNet [26] 產生了過度曝光的結果。 Retinex-Net [4]、KinD++ [54] 和 RRDNet [26] 在結果中產生偽影和模糊。我們發現 MIT Adobe FiveK 數據集的基本事實仍然包含一些暗區。這是因為該數據集最初是為全局圖像修飾而設計的,其中恢復低光區域不是該任務的主要優先事項。

wKgaomSibhyALTSAAAleYcajs0I976.png

wKgZomSibhyAEJYfAAn5GtCffQw472.png

我們還觀察到 LOL 數據集和MIT-Adobe FiveK 數據集中的輸入圖像相對沒有噪聲,這與真實的低光場景不同。盡管一些 LLIE 方法 [18]、[21]、[53] 將 MITAdobe FiveK 數據集作為訓練或測試數據集,但我們認為該數據集不適合 LLIE 的任務,因為它的不匹配/不令人滿意的基礎 LLIE的真相。為了檢查不同方法的泛化能力,我們對從我們的LoLi-Phone-imgT 數據集中采樣的圖像進行比較。不同方法的視覺結果如圖 7 和圖 8 所示。如圖 7 所示,所有方法都不能有效地提高輸入低光圖像的亮度和去除噪聲。此外,Retinex-Net[4]、MBLLEN[3] 和 DRBN[27] 會產生明顯的偽影。在圖 8 中,所有方法都增強了該輸入圖像的亮度。然而,只有 MBLLEN[3] 和 RRDNet[26] 在沒有顏色偏差、偽影和曝光過度/不足的情況下獲得視覺上令人愉悅的增強效果。值得注意的是,對于有光源的區域,沒有一種方法可以在不放大這些區域周圍的噪聲的情況下使圖像變亮。將光源考慮到 LLIE 將是一個有趣的探索方向。結果表明增強LoLi-Phone-imgT 數據集圖像的難度。

定量比較

(QuantitativeComparison)。對于具有基本事實的測試集,即LOL-test 和MIT-Adobe FiveK-test,我們采用 MSE、PSNR、SSIM[60] 和 LPIPS[76] 指標來定量比較不同的方法。 LPIPS[76] 是一種基于深度學習的圖像質量評估指標,它通過深度視覺表示來測量結果與其對應的基本事實之間的感知相似性。對于 LPIPS,我們采用基于AlexNet 的模型來計算感知相似度。較低的 LPIPS 值表明在感知相似性方面更接近相應的基本事實的結果。在表 5 中,我們展示了定量結果。

wKgaomSibh2AdNdvAAbPLBic6aI473.png

wKgZomSibh6Ae0JcAAo_pFhqqAQ520.png

wKgaomSibh-ACEYEAAMuxOvg6h0467.png

如表 5 所示,在LOL-test 和MIT-Adobe FiveK-test 上,基于監督學習的方法的定量分數優于基于無監督學習、基于半監督學習和基于零樣本學習的方法數據集。其中,LLNet[1] 在LOL-test 數據集上獲得了最好的 MSE 和 PSNR 值;但是,它在MIT-Adobe FiveK-test 數據集上的性能下降。這可能是由于 LLNet [1] 對 LOL 數據集的偏見,因為它是使用 LOL 訓練數據集進行訓練的。對于 LOL 測試數據集,TBEFN[20] 獲得最高的 SSIM 值,而 KinD[11] 獲得最低的 LPIPS 值。盡管有些方法是在 LOL 訓練數據集上訓練的,但在 LOL 測試數據集上的這四個評估指標中沒有贏家。對于MIT-Adobe FiveK-test 數據集,MBLLEN [3] 在四個評估指標下優于所有比較方法,盡管在合成訓練數據上進行了訓練。盡管如此,MBLLEN[3] 仍然無法在兩個測試數據集上獲得最佳性能。對于LoLi-Phone-imgT 測試集,我們使用非參考圖像質量評估指標,即 NIQE [77]、感知指數 (PI)[77]、[78]、[79]、LOE[30] 和 SPAQ[80]定量比較不同的方法。在 LOE 方面,LOE 值越小,亮度順序保持得越好。對于NIQE,NIQE值越小,視覺質量越好。較低的 PI 值表示更好的感知質量。 SPAQ 是為智能手機攝影的感知質量評估而設計的。較大的 SPAQ 值表明智能手機攝影的感知質量更好。定量結果見表 6。觀察表 6,我們可以發現Retinex-Net [4]、KinD++[54] 和EnlightenGAN [23] 的性能相對優于其他方法。 Retinex-Net [4] 獲得了最好的 PI 和 SPAQ 分數。這些分數表明Retinex-Net [4] 增強了結果的良好感知質量。然而,從圖 7(d) 和圖 8(d) 來看,Retinex-Net[4] 的結果明顯受到偽影和顏色偏差的影響。因此,我們認為非參考 PI 和 SPAQ 指標可能不適合低光圖像的感知質量評估。此外,KinD++[54] 的 NIQE 得分最低,而原始輸入的 LOE 得分最低。對于事實上的標準 LOE 指標,我們質疑亮度順序是否可以有效地反映增強性能。總體而言,非參考 IQA 指標在評估增強的低光圖像質量時存在偏差。

wKgZomSibh-ASyP8AAKZgC5GqH8476.png

為了準備LoLi-vidT 測試集中的視頻,我們首先丟棄連續幀中沒有明顯物體的視頻。總共選擇了10個視頻。對于每個視頻,我們選擇一個出現在所有幀中的對象。然后,我們使用跟蹤器 [81] 跟蹤輸入視頻的連續幀中的對象,并確保相同的對象出現在邊界框中。我們丟棄了具有不準確對象跟蹤的幀。收集每一幀中邊界框的坐標。我們使用這些坐標來裁剪通過不同方法增強的結果中的相應區域,并計算連續幀中對象的平均亮度方差 (ALV) 分數:其中是視頻的幀數,表示第幀邊界框區域的平均亮度值,表示視頻中所有邊界框區域的平均亮度值。較低的 ALV 值表明增強視頻的時間相干性更好。 LoLividT測試集的10個視頻平均的不同方法的ALV值如表7所示。每個視頻的不同方法的ALV值可以在補充材料中找到。此外,我們按照[9]在補充材料中繪制它們的亮度曲線。如表 7 所示,TBEFN[20] 在 ALV 值方面獲得了最佳的時間相干性,而 LLNet[1] 和EnlightenGAN [23] 分別排名第二和第三。相比之下,作為表現最差的 ExCNet [24] 的 ALV 值達到了1375.29。這是因為基于零參考學習的 ExCNet[24] 的性能對于連續幀的增強是不穩定的。換句話說,ExCNet[24] 可以有效地提高某些幀的亮度,而在其他幀上效果不佳。

4.4 Computational Complexity

在表 8 中,我們比較了不同方法的計算復雜度,包括運行時、可訓練參數和使用 NVIDA1080Ti GPU 對 32 張大小為1200×900×3 的圖像進行平均的 FLOP。為了公平比較,我們省略了LightenNet [5],因為只有其代碼的 CPU 版本是公開可用的。此外,我們沒有報告 ExCNet[24] 和 RRDNet[26] 的 FLOP,因為數量取決于輸入圖像(不同的輸入需要不同的迭代次數)。如表 8 所示,Zero-DCE[25] 的運行時間最短,因為它僅通過輕量級網絡估計幾個曲線參數。因此,它的可訓練參數和 FLOP 數量要少得多。此外,LightenNet[5] 的可訓練參數和 FLOP 的數量是比較方法中最少的。這是因為LightenNet [5] 通過一個由四個卷積層組成的微型網絡來估計輸入圖像的光照圖。相比之下,LLNet[1] 和 KinD++[54] 的 FLOPs 非常大,分別達到4124.177G 和12238.026G。由于耗時的優化過程,基于 SSL 的 ExCNet[24] 和 RRDNet[26] 的運行時間很長。

4.5 Application-Based Evaluation

我們研究了低光圖像增強方法在黑暗中人臉檢測的性能。按照 [25] 中提出的設置,我們使用 DARKFACE 數據集 [73],該數據集由在黑暗中拍攝的人臉圖像組成。由于測試集的邊界框不是公開可用的,我們對從訓練和驗證集中隨機采樣的 500 張圖像進行評估。在 WIDERFACE 數據集 [83] 上訓練的雙鏡頭人臉檢測器 (DSFD)[82] 被用作人臉檢測器。我們將不同 LLIE 方法的結果提供給 DSFD[82],并在圖 9 中描繪了 0.5IoU 閾值下的精度 - 召回 (P-R) 曲線。此外,我們使用評估比較了不同 IoU 閾值下的平均精度 (AP) 表 9 中 DARKFACE 數據集 [73] 中提供的工具 3。如圖 9 所示,所有基于深度學習的解決方案都提高了黑暗中人臉檢測的性能,表明基于深度學習的 LLIE 解決方案在黑暗中人臉檢測的有效性。如表 9 所示,不同 IoU 閾值下表現最佳者的 AP 得分范圍為 0.268 到 0.013,不同 IoU 閾值下的輸入 AP 得分非常低。結果表明仍有改進的余地。值得注意的是,Retinex-Net[4]、Zero-DCE[25] 和 TBEFN[20] 在黑暗中的人臉檢測方面取得了相對穩健的性能。我們在圖 10 中展示了不同方法的視覺結果。盡管Retinex-Net [4] 在 AP 分數上的表現優于其他方法,但其視覺結果包含明顯的偽影和不自然的紋理。一般來說,零 DCE[25] 在 AP 分數和黑暗中人臉檢測的感知質量之間取得了很好的平衡。

wKgaomSibiCAGbloAAKEjlq6Vmw694.png

wKgZomSibiGAOv8OAArrBtapPCE641.png

wKgaomSibiGAMqJsAAIW0fGb2tY895.png

4.6 Discussion

從實驗結果中,我們獲得了一些有趣的觀察和見解:


根據測試數據集和評估指標,不同方法的性能存在顯著差異。就常用測試數據集的全參考 IQA 指標而言,MBLLEN[3]、KinD++[54] 和 DSLR[21] 通常優于其他比較方法。對于手機拍攝的真實世界低光圖像,基于監督學習的Retinex-Net [4] 和 KinD++ [54] 在非參考 IQA 指標中獲得了更好的分數。對于手機拍攝的真實世界低光視頻,TBEFN[20] 更好地保留了時間相干性。在計算效率方面,LightenNet[5] 和Zero-DCE [25] 表現突出。從黑暗中的人臉檢測方面來看,TBEFN[20]、Retinex-Net[4]和Zero-DCE[25]排名前三。沒有方法總是贏。總體而言,在大多數情況下,Retinex-Net[4]、[20]、Zero-DCE[25] 和 DSLR[21] 是更好的選擇。

提出的LoLi-Phone 數據集的低光圖像和視頻在大多數方法中都失敗了。現有方法的泛化能力需要進一步提高。值得注意的是,僅使用平均亮度方差來評估低光視頻增強的不同方法的性能是不夠的。更有效和更全面的評估指標將指導弱光視頻增強技術的發展走向正確的軌道。

關于學習策略,監督學習在大多數情況下取得了更好的性能,但需要大量的計算資源和配對的訓練數據。相比之下,零樣本學習在實際應用中更具吸引力,因為它不需要配對或非配對的訓練數據。因此,基于零樣本學習的方法具有更好的泛化能力。然而,基于零樣本學習的方法的定量性能不如其他方法。

視覺結果和定量 IQA 分數之間存在差距。換句話說,良好的視覺外觀并不總能產生良好的 IQA 分數。人類感知與IQA分數之間的關系值得更多研究。追求更好的視覺感知或定量分數取決于具體的應用。例如,為了向觀察者展示結果,應該更多地關注視覺感知。相比之下,當 LLIE 方法應用于黑暗中的人臉檢測時,準確性比視覺感知更重要。因此,在比較不同方法時,應進行更全面和徹底的比較。

基于深度學習的 LLIE 方法有利于在黑暗中進行人臉檢測。這些結果進一步支持了增強低光圖像和視頻的重要性。然而,與正常光照圖像中人臉檢測的高精度相比,盡管使用了LLIE方法,但在黑暗中人臉檢測的準確率卻極低。

5 FUTURE RESEARCH DIRECTIONS

低光圖像增強是一個具有挑戰性的研究課題。從第 4 節中介紹的實驗可以看出,仍有改進的余地。我們建議潛在的未來研究方向如下。

有效的學習策略

。如前所述,當前的 LLIE 模型主要采用監督學習,需要大量配對訓練數據,并且可能在特定數據集上過擬合。盡管一些研究人員試圖將無監督學習(例如對抗性學習)引入 LLIE,但 LLIE 與這些學習策略之間的內在關系尚不清楚,它們在 LLIE 中的有效性需要進一步改進。零樣本學習已在真實場景中顯示出強大的性能,同時不需要配對訓練數據。獨特的優勢表明零樣本學習是一個潛在的研究方向,特別是在零參考損失、深度先驗和優化策略的制定方面。

專門的網絡結構

。網絡結構可以顯著影響增強性能。如前7所述,大多數 LLIE 深度模型采用 U-Net 或類似 U-Net 的結構。盡管它們在某些情況下取得了可喜的性能,但仍然缺乏研究這種編碼器-解碼器網絡結構是否最適合 LLIE 任務。由于參數空間大,一些網絡結構需要高內存占用和長推理時間。這樣的網絡結構對于實際應用來說是不可接受的。因此,考慮到光照不均勻、像素值小、噪聲抑制和顏色恒定等弱光圖像的特點,研究一種更有效的 LLIE 網絡結構是值得的。人們還可以通過考慮低光圖像的局部相似性或考慮更有效的操作(例如深度可分離卷積層[84]和自校準卷積[85])來設計更有效的網絡結構。可以考慮神經架構搜索(NAS)技術[86]、[87]以獲得更有效和高效的LLIE網絡結構。將變壓器架構 [88]、[89] 改編為 LLIE 可能是一個潛在且有趣的研究方向。

損失函數

。損失函數約束輸入圖像和ground-truth之間的關系,并推動深度網絡的優化。在 LLIE 中,常用的損失函數是從相關的視覺任務中借用的。沒有專門的損失函數來指導弱光視頻增強網絡的優化。因此,需要設計更適合 LLIE 的損失函數。此外,最近的研究揭示了使用深度神經網絡來近似人類對圖像質量的視覺感知的可能性 [90]、[91]。這些思想和基礎理論可用于指導弱光增強網絡的適當損失函數的設計。

真實的訓練數據

。盡管 LLIE 有多個訓練數據集,但它們的真實性、規模和多樣性落后于真正的弱光條件。因此,如第 4 節所示,當前的 LLIE 深度模型在遇到在現實世界場景中捕獲的低光圖像時無法達到令人滿意的性能。需要更多的努力來研究大規模和多樣化的現實世界配對 LLIE 訓練數據集的集合或生成更真實的合成數據。

標準測試數據

。目前,還沒有公認的 LLIE 評估基準。研究人員更喜歡選擇自己的測試數據,這些數據可能會偏向于他們提出的方法。盡管一些研究人員留下了一些配對數據作為測試數據,但訓練和測試分區的劃分在文獻中大多是臨時的。因此,在不同方法之間進行公平比較通常是費力的,如果不是不可能的話。此外,一些測試數據要么易于處理,要么最初不是為弱光增強而收集的。需要有一個標準的低光圖像和視頻測試數據集,其中包括大量具有相應groundtruth的測試樣本,涵蓋多種場景和具有挑戰性的光照條件。

特定于任務的評估指標

。 LLIE中常用的評價指標可以在一定程度上反映圖像質量。然而,如何衡量 LLIE 方法增強結果的好壞仍然挑戰當前的 IQA 指標,特別是對于非參考測量。此外,當前的 IQA 指標要么側重于人類視覺感知,例如主觀質量,要么強調機器感知,例如對高級視覺任務的影響。需要一種同時考慮人類感知和機器感知的評估指標。因此,預計該研究方向將開展更多工作,努力為 LLIE 設計更準確和特定任務的評估指標。

強大的泛化能力

。觀察真實世界測試數據的實驗結果,大多數方法由于泛化能力有限而失敗。泛化能力差是由合成訓練數據、小規模訓練數據、無效的網絡結構、不切實際的假設和不準確的先驗等因素造成的。探索提高基于深度學習的 LLIE 模型泛化能力的方法非常重要。

低光視頻增強的擴展

。與視頻去模糊 [92]、視頻去噪 [93] 和視頻超分辨率 [94] 等其他低級視覺任務中視頻增強的快速發展不同,低光視頻增強受到的關注較少。將現有的LLIE 方法直接應用于視頻通常會導致不滿意的結果和閃爍的偽影。需要更多的努力來有效地消除視覺閃爍,利用相鄰幀之間的時間信息,并加快增強速度。

整合語義信息

。語義信息對于弱光增強至關重要。它指導網絡在增強過程中區分不同的區域。沒有訪問語義先驗的網絡很容易偏離區域的原始顏色,例如,在增強后將黑色頭發變成灰色。因此,將語義先驗整合到 LLIE 模型中是一個很有前景的研究方向。在圖像超分辨率 [95]、[96] 和人臉恢復 [97] 上也進行了類似的工作。

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 圖像增強
    +關注

    關注

    0

    文章

    54

    瀏覽量

    10046
  • 深度學習
    +關注

    關注

    73

    文章

    5516

    瀏覽量

    121553
收藏 人收藏

    評論

    相關推薦

    基于深度學習的傳統圖像增強算法

    幾個傳統的圖像增強算法,并給出matlab實現代碼,看一看不同算法的實現效果,最后再介紹一下深度學習圖像
    的頭像 發表于 11-11 16:28 ?5797次閱讀
    基于<b class='flag-5'>深度</b><b class='flag-5'>學習</b>的傳統<b class='flag-5'>圖像</b><b class='flag-5'>增強</b>算法

    深度學習中的圖片如何增強

    深度學習中的圖片增強
    發表于 05-28 07:03

    深度學習在預測和健康管理中的應用

    深度學習在預測和健康管理中的應用綜述摘要深度學習對預測和健康管理(PHM)引起了濃厚的興趣,因為它具有強大的表示能力,自動化的功能
    發表于 07-12 06:46

    照度圖像增強算法

    。首先,采用暗原色先驗規律對偽霧圖的環境值進行估計,并基于光照情況對透射率進行估計;然后,基于大氣散射模型還原出無霧圖像;最后,對無霧圖像反轉得到照度
    發表于 01-05 15:19 ?1次下載

    深度學習怎么實現圖像圖像的翻譯

    圖像圖像的翻譯是一類視覺和圖形問題,其目標是學習輸入圖像和輸出圖像之間的映射。 它可以應用到廣泛的應用程序中,例如收集樣式轉移,對象變形,
    的頭像 發表于 05-04 18:12 ?4234次閱讀

    基于深度學習圖像修復模型及實驗對比

    圖像修復是計算機視覺領域中極具挑戰性的硏究課題。近年來,深度學習技術的發展推動了圖像修復性能的顯著提升,使得圖像修復這一傳統課題再次引起了學
    發表于 04-08 09:38 ?20次下載
    基于<b class='flag-5'>深度</b><b class='flag-5'>學習</b>的<b class='flag-5'>圖像</b>修復模型及實驗對比

    基于模板、檢索和深度學習圖像描述生成方法

    描述技術的發展歷程為主線,對圖像描述任務的方法、評價指標和常用數據集進行了詳細的綜述。針對圖像描述任務的技術方法,總結了基于模板、檢索和深度學習
    發表于 04-23 14:07 ?12次下載
    基于模板、檢索和<b class='flag-5'>深度</b><b class='flag-5'>學習</b>的<b class='flag-5'>圖像</b>描述生成方法

    基于深度學習的光學成像算法綜述

    成分信息。近年來,隨著深度學習算法在醫學圖像處理中的廣泛應用,基于深度學習聲成像算法也成為該
    發表于 06-16 14:58 ?10次下載

    基于深度學習的文本主題模型研究綜述

    基于深度學習的文本主題模型研究綜述
    發表于 06-24 11:49 ?68次下載

    基于深度學習的目標檢測研究綜述

    基于深度學習的目標檢測研究綜述 來源:《電子學報》?,作者羅會蘭等 摘 要:?目標檢測是計算機視覺領域內的熱點課題,在機器人導航、智能視頻監控及航天航空等領域都有廣泛的應用.本文首先綜述
    發表于 01-06 09:14 ?2245次閱讀
    基于<b class='flag-5'>深度</b><b class='flag-5'>學習</b>的目標檢測研究<b class='flag-5'>綜述</b>

    深度學習在軌跡數據挖掘中的應用研究綜述

    深度學習在軌跡數據挖掘中的應用研究綜述 來源:《?計算機科學與應用》?,作者 李旭娟 等 摘要:? 在過去十年,深度學習已被證明在很多領域應
    發表于 03-08 17:24 ?2051次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學習</b>在軌跡數據挖掘中的應用研究<b class='flag-5'>綜述</b>

    求一種有效的圖像增強方案

    圖像是夜晚拍照時極為常見的一種現象。不充分的光照會極大的降低圖像的視覺質量,細節損失、對比度不僅導致令人討厭的主觀感受,同時會影諸多計
    的頭像 發表于 11-03 09:35 ?2029次閱讀

    悉尼大學最新綜述深度學習圖像摳圖

    深度學習出現之后,研究者設計出了多種多樣的基于卷積神經網絡的解決方案。和傳統方法一樣,早期的深度學習方法依然需要依賴一定量的人工輔助信息,例如三分圖(trimap),涂抹(scrib
    的頭像 發表于 04-20 09:31 ?709次閱讀

    深度學習中的圖像分割

    深度學習可以學習視覺輸入的模式,以預測組成圖像的對象類。用于圖像處理的主要深度
    的頭像 發表于 05-05 11:35 ?1301次閱讀

    深度學習中的無監督學習方法綜述

    深度學習作為機器學習領域的一個重要分支,近年來在多個領域取得了顯著的成果,特別是在圖像識別、語音識別、自然語言處理等領域。然而,深度
    的頭像 發表于 07-09 10:50 ?953次閱讀
    主站蜘蛛池模板: 午夜爱爱爱爱爽爽爽网站免费 | 手机看福利片 | 日韩一级生活片 | 51xtv成人影院 | 在线观看视频播放 | 久久福利免费视频 | 天堂avwww| 色老板在线视频一区二区 | aⅴ一区二区三区 | 欧美亚洲天堂 | 日本在线视频二区 | 欧美日韩高清一区 | 大尺度视频在线 | 精品在线视频一区 | 欧美极品第一页 | 欧美日韩一区二区视频图片 | 久久天天操 | 婷婷丁香激情五月 | 亚洲人成毛片线播放 | 亚洲日本一区二区三区在线不卡 | 综合欧美一区二区三区 | 天堂成人网 | 亚洲综合色吧 | aaaaaaa毛片 | 日韩一级欧美一级一级国产 | 男女网站在线观看 | 夜夜爽夜夜爱 | 日韩aa| 欧美激情亚洲精品日韩1区2区 | 成人看的午夜免费毛片 | 东京毛片 | 四虎免费在线播放 | 五月天精品 | 国产伦精品一区二区三区在线观看 | 天天干天天操天天舔 | 国产色女人 | 丁香六月婷婷综合 | 亚洲精品蜜桃久久久久久 | 亚洲成人黄色 | 天天操天 | 色偷偷91综合久久噜噜噜男男 |