當(dāng)我們談?wù)?a href="http://m.xsypw.cn/v/" target="_blank">視頻技術(shù)時，超高清視頻（Ultra High Definition，簡稱UHD）無疑是當(dāng)今最令人興奮的領(lǐng)域之一。上期，我們介紹了使用復(fù)雜的算法來創(chuàng)建一個三維聲場，給觀眾帶來音頻的空間感、方位感、高還原度、高沉浸度、臨場感，個性化的三維聲技術(shù)。本期，我們就聊聊最近非常火的基于深度學(xué)習(xí)的超分技術(shù)。

關(guān)聯(lián)回顧

全圖說電視的發(fā)展歷史

全圖說視頻編解碼的發(fā)展歷史

由淺入深說高清——聊聊高動態(tài)范圍（HDR）

由淺入深說高清——HDR的標(biāo)準之爭

由淺入深說高清——HDR的適配性與流程化的挑戰(zhàn)由淺入深說高清——讓人眼花繚亂的超高清視頻編解碼格式由淺入深說高清——超高清視頻的三維聲技術(shù)

1. 前言

視頻超分技術(shù)（Video super-resolution），簡稱VSR，是將低分辨率（Low Resolution，簡稱：LR）的視頻轉(zhuǎn)換為高分辨率（High Resolution，簡稱：HR）視頻的過程。與單圖像超分技術(shù)（Single Image Super-Resolution，簡稱：SISR）不同，這不是把視頻圖像的每一幀恢復(fù)到更多的細節(jié)，更重要的是能夠保持整個視頻幀的運動一致性。

為什么我們不直接看高分辨率的視頻，而要使用超分技術(shù)去逆向轉(zhuǎn)換呢？答案也非常簡單：因為沒有高清片源。高清視頻是最近幾年才火起來的事情，在這之前大量的視頻片源就沒有高清。而且我們經(jīng)常在手機上觀看以為的高清視頻，投射到大的液晶屏幕上，就顯得模糊不清，因為同樣像素的視頻內(nèi)容，被延展到更大屏幕上，只會把原本很小的彩色像素點拉成一個一個肉眼可見的彩色小方塊。如果不通過超分技術(shù)，要么忍受這種模糊，要么就只能在高清電視上重新去搜索匹配的高清片源，但又要花錢不是？能搜到片源還算好的，好多時候，花錢也未必能解決問題。比如在醫(yī)學(xué)圖像領(lǐng)域（MRT、CT、PET等等），出于圖像掃描技術(shù)的局限，片源的分辨率很難做上來，如果沒有超分技術(shù)，那些原始醫(yī)療圖像掃描完，醫(yī)生看到就都是慘不忍睹的噪點。

2. 什么是深度學(xué)習(xí)？

第一次正式提出深度學(xué)習(xí)這個詞兒的是加州大學(xué)的計算機科學(xué)教授麗娜·德克特（Rina Dechter）。她在 1986 年的一篇論文中率先使用了深度學(xué)習(xí)（Deep Learning）。深度學(xué)習(xí)是機器學(xué)習(xí)的一種，它使用多層人工神經(jīng)網(wǎng)絡(luò) (ANN) 對數(shù)據(jù)中的復(fù)雜模式進行建模。對于必須將多少層的 ANN 視為“深度”并沒有嚴格的規(guī)定，但通常，具有多個隱藏層的神經(jīng)網(wǎng)絡(luò)可被視為深度學(xué)習(xí)模型。實際上，深度學(xué)習(xí)模型可以有幾十層、幾百層甚至幾千層。然而，層數(shù)本身并不是決定深度學(xué)習(xí)模型性能的唯一因素，其他因素如每層神經(jīng)元數(shù)量、使用的激活函數(shù)和訓(xùn)練方法也會對深度學(xué)習(xí)模型產(chǎn)生重大影響。模型的有效性。

深度學(xué)習(xí)使用多層從原始輸入中逐步提取更高級別的特征。例如，在圖像處理中，較低層可以識別邊緣，而較高層可以識別與人類相關(guān)的概念，例如數(shù)字、字母或面孔。從另一個角度來看深度學(xué)習(xí)，深度學(xué)習(xí)是指“計算機模擬”或“自動化”人類從源（例如，狗的圖像）到學(xué)習(xí)對象（狗）的學(xué)習(xí)過程。

深度學(xué)習(xí)的算法本來就有很多種，比較經(jīng)典的包括：深度神經(jīng)網(wǎng)絡(luò)（Deep Neural Networks, 簡稱DNN）、深度置信網(wǎng)絡(luò)（Deep Belief Networks, 簡稱DBN）、深度強化學(xué)習(xí)（Deep Reinforcement Learning, 簡稱DRN）、遞歸神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Networks, 簡稱RNN）、卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Networks, 簡稱CNN）以及我們最近非常火的應(yīng)用在ChatGPT中的Transformer。這些算法被廣泛應(yīng)用在計算機視覺、語音識別、自然語言處理、機器翻譯、生物信息學(xué)、藥物設(shè)計、氣象科學(xué)、信息管理等領(lǐng)域。視頻超分當(dāng)然是其中的熱門應(yīng)用場景。

3. 為什么現(xiàn)在才熱起來？

你可能會好奇，為啥基于深度學(xué)習(xí)的視頻超分技術(shù)最近才火起來？深度學(xué)習(xí)也不是一個新鮮概念了。萬事萬物的發(fā)展都是相互關(guān)聯(lián)和相互促進的，任何技術(shù)領(lǐng)域的拐點或者奇點爆發(fā)，都是經(jīng)過長時間的鋪墊和蓄能醞釀。在25年前，我還在讀研究生的時候，當(dāng)時的課題就是通過神經(jīng)網(wǎng)絡(luò)的方式用紫外光傳感器對制冷系統(tǒng)中潤滑油質(zhì)量分數(shù)的實時測量。我理解為什么深度學(xué)習(xí)被研究人員一直追捧，但總是雷聲大雨點小，主要有以下幾個約束：1. 計算機的處理性能；2. 網(wǎng)絡(luò)速度的局限；3. 學(xué)習(xí)樣本的局限，以及在學(xué)習(xí)樣本中的數(shù)字版權(quán)問題；4. 缺乏良好的開源軟件管理系統(tǒng)讓算法被充分共享。近些年，以上瓶頸都已經(jīng)化解，深度學(xué)習(xí)開始出現(xiàn)了爆炸式的增長。

4. 基于深度學(xué)習(xí)的超分技術(shù)的優(yōu)勢

有一些傳統(tǒng)的超分技術(shù)，包括小波變換和第二代小波變換的頻域超分技術(shù)、使用卡爾曼濾波器的迭代自適應(yīng)濾波算法、最大后驗（MAP）和馬爾可夫隨機場（MRF）的概率方法等等，毫無疑問，這些傳統(tǒng)超分技術(shù)表現(xiàn)并不如意。近期，基于深度學(xué)習(xí)的視頻超分算法表現(xiàn)出了比傳統(tǒng)超分算法明顯的優(yōu)勢，主要表現(xiàn)以下幾點：

- 學(xué)習(xí)復(fù)雜關(guān)系的能力強：傳統(tǒng)方法依靠手工制作的特征和啟發(fā)式方法在低分辨率視頻幀中插入缺失的信息。這限制了他們學(xué)習(xí)低分辨率和高分辨率視頻幀之間復(fù)雜關(guān)系的能力，并且他們可能無法生成視覺上令人愉悅的高辨率視頻。基于深度學(xué)習(xí)的方法可以學(xué)習(xí)低分辨率和高分辨率視頻幀之間更復(fù)雜的關(guān)系，使它們能夠產(chǎn)生更準確和視覺上令人愉悅的結(jié)果。
- 不必依賴特定運動模型：傳統(tǒng)方法假設(shè)視頻幀有特定的運動模型，例如全局運動或塊運動。這會限制它們處理視頻幀之間復(fù)雜運動的能力，并可能導(dǎo)致運動偽影和高辨率視頻中的模糊。基于深度學(xué)習(xí)的方法可以處理視頻幀之間的復(fù)雜運動。
- 計算成本低：傳統(tǒng)方法的計算成本可能很高，并且可能需要大量計算資源才能生成高分辨率視頻。這限制了它們實時執(zhí)行超分計算的能力，并可能使它們對某些應(yīng)用不切實際。許多基于深度學(xué)習(xí)的視頻超分方法可以實時進行超分計算，這對于低成本視頻流和實時視頻分析等應(yīng)用很重要。
- 對噪聲和偽影的魯棒性強：傳統(tǒng)方法對輸入視頻幀中的噪聲和偽影敏感，并且在面對嘈雜或低質(zhì)量輸入幀時可能會產(chǎn)生模糊或失真的結(jié)果。而基于深度學(xué)習(xí)的方法對輸入視頻幀中的噪聲和偽影的魯棒性更強，即使輸入幀有噪聲或失真，也能生成高質(zhì)量的高辨率視頻。

5. 超分技術(shù)中沒有“The One”？

正是因為前面提到的優(yōu)勢，使得基于深度學(xué)習(xí)的超分技術(shù)最近成為視頻處理和計算機視覺領(lǐng)域許多應(yīng)用的熱門選擇，顯示出巨大潛力。現(xiàn)在，深度學(xué)習(xí)如春筍般在超分技術(shù)領(lǐng)域開得漫山遍野，但目前尚未出現(xiàn)一種深度學(xué)習(xí)的超分算法展露絕對的優(yōu)勢，達到普遍“令人滿意”的狀態(tài)。以至于直到當(dāng)下，不管在研究領(lǐng)域，還是在生態(tài)運用領(lǐng)域，所有的算法都是百花爭鳴，各有千秋。之所以出現(xiàn)這種狀況，有以下幾個原因：

- 不同的數(shù)據(jù)集：基于深度學(xué)習(xí)的視頻超分算法需要在特定的數(shù)據(jù)集上進行訓(xùn)練和評估，以確保其有效性。然而，不同的數(shù)據(jù)集具有不同的特征，例如分辨率、噪聲水平和運動模式。這會影響視頻超分算法的性能，這意味著在一個數(shù)據(jù)集上表現(xiàn)良好的方法在另一個數(shù)據(jù)集上可能表現(xiàn)不佳。這其實也暴露了深度學(xué)習(xí)一直以來的問題，就是結(jié)果的不可預(yù)知性。
- 不同視頻類型的運動特征差異巨大：視頻幀可以有不同類型的運動，例如全局運動、局部運動和復(fù)雜運動。不同的視頻超分方法可能更適合處理不同類型的運動，這意味著在一種類型的運動上表現(xiàn)良好的方法可能在另一種類型的運動上表現(xiàn)不佳。
- 不同因素的權(quán)衡，魚與熊掌不可兼得：不同的視頻超分方法可能會在計算復(fù)雜度、視覺質(zhì)量和速度等因素之間做出不同的權(quán)衡。例如，生成高質(zhì)量高分辨率視頻的方法可能計算量大且速度慢，而速度更快的方法可能生成質(zhì)量較低的視頻。

看來我們要簡單明了地單刀直入，講明白基于深度學(xué)習(xí)的超分技術(shù)并不容易，必須要娓娓道來。

6. 超分技術(shù)的基本概念和評價指標(biāo)

高清視頻的退化公式

談超分技術(shù)，必須要懂得基礎(chǔ)圖像的知識，首當(dāng)其沖，就是要理解高清視頻的退化公式：

?—— 代表低分辨率幀序列

?—— 代表原始高分辨率幀序列

* ——卷積運算

k——模糊核

?——?代表下采樣s倍

?——?代表高斯噪聲

超分計算是逆運算，也就是根據(jù)幀序列來估計幀序列，并且讓接近原裝的這么一個過程。

視頻質(zhì)量主要通過峰值信噪比（PSNR）和結(jié)構(gòu)相似性指數(shù)（SSIM）來評價。

峰值信噪比（PSNR）

PSNR是峰值信噪比(Peak Signal-to-Noise Ratio)的英文縮寫。

其中L表示顏色值的最大范圍，通常為255，N表示圖像中像素的總數(shù)，MSE經(jīng)常作為損失函數(shù)出現(xiàn)。MSE表示輸出視頻和原始視頻的均方誤差（Mean Square Error）。

盡管PSNR是最普遍和使用最為廣泛的一種圖像客觀評價指標(biāo)，然而它并未考慮到人眼的視覺特性（人眼對空間頻率較低的對比差異敏感度較高，人眼對亮度對比差異的敏感度較色度高，人眼對一個區(qū)域的感知結(jié)果會受到其周圍鄰近區(qū)域的影響等），因而經(jīng)常出現(xiàn)評價結(jié)果與人的主觀感覺不一致的情況。

結(jié)構(gòu)相似性（SSIM）

SSIM是結(jié)構(gòu)相似性（Structural SIMilarity）的英文縮寫。

SSIM是一種衡量兩幅圖像相似度的指標(biāo)。SSIM 在圖像處理社區(qū)以及電視和社交媒體行業(yè)得到廣泛采用。該指標(biāo)首先由德州大學(xué)奧斯丁分校的圖像和視頻工程實驗室(Laboratory for Image and Video Engineering)提出。而如果兩幅圖像是壓縮前和壓縮后的圖像，那么SSIM算法就可以用來評估壓縮后的圖像質(zhì)量。SSIM公式基于樣本之間的三個比較衡量：亮度 (luminance)、對比度 (contrast) 和結(jié)構(gòu) (structure)。

目前除了PSNR和SSIM，還有一些其他的指標(biāo)也被使用，包括：信息保真度標(biāo)準（IFC）、視覺信息保真度（VIF）、基于運動的視頻完整性評估指數(shù)（MOVIE）和視頻多方法評估融合（VMAF）等等，但是這些指標(biāo)也并無完美，目前缺乏客觀指標(biāo)來驗證視頻超分辨率方法還原真實細節(jié)的能力。該領(lǐng)域目前正在進行研究。很多機構(gòu)組織的視頻超分技術(shù)比拼的基準測試，普遍都是用PSNR , SSIM等客觀指標(biāo)來評價，當(dāng)然也會依賴于平均意見得分（MOS）非常主觀的評價進行糾偏和修正。

7. 基于深度學(xué)習(xí)的超分算法示例

既然基于深度學(xué)習(xí)的超分技術(shù)對應(yīng)的算法很多，我們就無法做到一一解釋，不僅讓本篇的篇幅冗長，而且全部都是專業(yè)術(shù)語，相信也會超級乏味，嚇阻你們繼續(xù)讀下去。所以我們僅摘錄其中典型的算法給大家簡單解釋一下，希望能讓大家有一個基本概況的了解。但即便如此，今天談到的超分算法也有9大類16個算法，而這些只是諸多超分算法中的一小部分。

7.1 預(yù)上采樣

“預(yù)上采樣”部分意味著低分辨率輸入圖像在被輸入深度學(xué)習(xí)模型之前首先使用簡單的算法（例如雙線性插值）增加尺寸。這樣做的原因是為模型提供更詳細的信息以供處理，從而產(chǎn)生更高質(zhì)量的輸出圖像。通過在輸入圖像通過模型之前對其進行上采樣，模型可以更好地理解圖像的細節(jié)和紋理，并產(chǎn)生更準確和詳細的輸出。總的來說，預(yù)上采樣超分辨率是一種通過使用輸入圖像的放大版本的深度學(xué)習(xí)模型來使低分辨率圖像看起來更好的技術(shù)。

7.1.1 SRCNN

SRCNN是超分卷積神經(jīng)網(wǎng)絡(luò)（Super-Resolution Convolutional. Neural Network）的縮寫。

SRCNN 架構(gòu)，由三層組成：補丁提取層（Patch Extraction and Representation）、非線性映射層（Non-Linear Mapping）和重建層（Reconstruction）。補丁提取層用于從輸入中提取密集補丁，并使用卷積濾波器表示它們。非線性映射層由 1×1 卷積濾波器組成，用于改變通道數(shù)并添加非線性。最后，重建層來重建高分辨率圖像。

補充小知識：卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Networks）

卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Networks，簡稱：CNN）背后的基本思想是使用卷積層從輸入數(shù)據(jù)中自動學(xué)習(xí)和提取特征。卷積是一種數(shù)學(xué)運算，它將兩個函數(shù)結(jié)合起來產(chǎn)生第三個函數(shù)，該函數(shù)表示一個原始函數(shù)如何被另一個函數(shù)修改。在 CNN 中，卷積層將一組過濾器應(yīng)用于輸入數(shù)據(jù)，這些過濾器可以識別圖像中的特定特征或模式，例如邊緣、角或紋理。

CNN 通常由多層組成，包括卷積層、池化層和全連接層。池化層用于減小輸入的空間大小，同時保留重要特征，全連接層用于根據(jù)卷積層和池化層學(xué)習(xí)到的特征進行預(yù)測。

CNN 已被證明在許多圖像和視頻相關(guān)任務(wù)中非常有效，例如對象檢測、圖像分類和分割。

7.1.2 VDSR

VDSR是非常深超分 (Very Deep Super Resolution) 的縮寫，VDSR是對 SRCNN 的改進，增加了以下功能：

使用具有小型 3×3 卷積濾波器的深度網(wǎng)絡(luò)，而不是具有大型卷積濾波器的小型網(wǎng)絡(luò)。VDSR基于VGG 架構(gòu)（VGG代表視覺幾何組（Visual Geometry Group），是具有多層的標(biāo)準深度卷積神經(jīng)網(wǎng)絡(luò)）。

網(wǎng)絡(luò)嘗試學(xué)習(xí)輸出圖像和插值輸入的殘差，而不是學(xué)習(xí)直接映射（如 SRCNN），如上圖所示。這種操作簡化了任務(wù)，將初始的低分辨率圖像添加到網(wǎng)絡(luò)輸出中以獲得最終的高分辨率輸出。

通過梯度裁剪用于訓(xùn)練具有更高學(xué)習(xí)率的深度網(wǎng)絡(luò)。梯度裁剪是一種在訓(xùn)練期間用于防止梯度變得太大或太小的技術(shù)。當(dāng)梯度的范數(shù)超過某個閾值時，按比例縮小梯度，使其范數(shù)等于閾值。這有助于穩(wěn)定訓(xùn)練過程并防止數(shù)值不穩(wěn)定，以幫助模型更快收斂并產(chǎn)生更好的結(jié)果。避免在某些情況下，梯度會變得太大或太小，這會導(dǎo)致優(yōu)化算法發(fā)散或收斂太慢。

7.2 后上采樣

上文說到的預(yù)上采樣，存在諸多不便：

- ?預(yù)上采樣首先使用簡單的上采樣算法增加輸入圖像的分辨率，這在計算上可能很昂貴，尤其是對于大圖像。
- 預(yù)上采樣有時會導(dǎo)致過度擬合，模型會記住上采樣算法的細節(jié)，而不是學(xué)習(xí)圖像的底層特征。
- 預(yù)上采樣用于提高輸入圖像分辨率的上采樣算法是固定的，這可能導(dǎo)致分辨率與訓(xùn)練分辨率不同的圖像輸出圖像質(zhì)量較低。

預(yù)上采樣首先使用簡單的上采樣算法提高輸入圖像的分辨率，而后上采樣在圖像經(jīng)過超分模型處理后再執(zhí)行上采樣。具體來說就是低分辨率輸入圖像通過深度學(xué)習(xí)模型，學(xué)習(xí)從圖像中提取高級特征和細節(jié)。一旦模型處理完圖像，就會使用學(xué)習(xí)到的上采樣算法將生成的特征圖上采樣到所需的分辨率。最終通過將上采樣的特征圖與原始低分辨率圖像相結(jié)合而獲得高分辨率圖像。

這樣一來，后上采樣在處理圖像之前不需要額外的上采樣步驟，從而降低計算復(fù)雜度和內(nèi)存使用量。同時由于上采樣算法是作為模型的一部分學(xué)習(xí)的，又會避免過度擬合。最后，深度學(xué)習(xí)模型可以在上采樣之前從低分辨率輸入圖像中學(xué)習(xí)最相關(guān)的特征和細節(jié)，更有效地處理不同的分辨率，從而產(chǎn)生更準確和更詳細的輸出圖像。

7.2.1 FSRCNN

FSRCNN是快速超分卷積神經(jīng)網(wǎng)絡(luò)（Fast Super-Resolution Convolutional Neural Network）的縮寫。

從上圖可以看出，和SRCNN相比，F(xiàn)SRCNN有以下變化：

- 更少的參數(shù)：與 SRCNN 相比，F(xiàn)SRCNN 的參數(shù)更少，這使其速度更快，內(nèi)存效率更高。使用多個 3×3 卷積，而不是使用大的卷積濾波器，類似于視覺幾何組（VGG）網(wǎng)絡(luò)通過簡化架構(gòu)來減少參數(shù)數(shù)量的工作方式。
- 更快的推理：在初始 5×5 卷積之后使用 1×1 卷積來減少通道數(shù)量，從而減少計算和內(nèi)存。FSRCNN 旨在通過使用較少數(shù)量的過濾器和減小中間特征圖的大小來比 SRCNN 更快。這使其能夠?qū)崟r或接近實時地執(zhí)行超分辨率，使其適用于現(xiàn)實世界的應(yīng)用。
- 多個上采樣階段：FSRCNN 使用多個上采樣階段來逐漸提高圖像的分辨率，這有助于保留精細細節(jié)并減少偽影。上采樣是通過使用學(xué)習(xí)的反卷積濾波器完成的，從而改進了模型。
- 端到端訓(xùn)練：FSRCNN 是端到端訓(xùn)練的，這意味著整個網(wǎng)絡(luò)一起優(yōu)化，而不是使用單獨的預(yù)處理步驟進行上采樣。一開始沒有預(yù)處理或上采樣。特征提取發(fā)生在低分辨率空間中。這會導(dǎo)致更好的性能和更有效地使用訓(xùn)練數(shù)據(jù)。
- 更好的結(jié)果：FSRCNN 已被證明在多項基準測試中優(yōu)于 SRCNN，包括 PSNR 和視覺質(zhì)量指標(biāo)。這意味著它可以生成質(zhì)量更好的超分辨率圖像，尤其是對于高放大倍數(shù)。

FSRCNN 最終取得了比 SRCNN 更好的結(jié)果，同時速度也更快。

7.2.2 ESPCN

ESPCN是高效的像素卷積神經(jīng)網(wǎng)絡(luò)（Efficient Sub-Pixel CNN）的縮寫。

在圖像處理中，亞像素（Sub-Pixel）是指像素的一部分。像素是可以顯示在數(shù)字屏幕上或打印在紙上的圖像的最小單位。亞像素是用于表示像素的不同顏色分量的較小單元。

數(shù)字圖像中的每個像素都由三種顏色成分組成：紅色、綠色和藍色 (RGB)。一個亞像素代表每個顏色分量的一小部分。例如，在 RGB 圖像中，每個像素包含三個亞像素，每個亞像素對應(yīng)一個顏色分量。

亞像素用于各種圖像處理技術(shù)，包括亞像素渲染和亞像素運動估計。在亞像素渲染中，亞像素用于在圖像中創(chuàng)建更高分辨率或更平滑邊緣的外觀。在亞像素運動估計中，亞像素通過分析相鄰亞像素之間的顏色值差異來估計視頻中對象的運動。

ESPCN技術(shù)中，亞像素卷積用于通過重新排列低分辨率圖像的通道以形成更高分辨率的圖像來提高圖像的分辨率，其中高分辨率圖像中的每個像素對應(yīng)于低分辨率圖像中的一組亞像素。亞像素卷積層將低分辨率特征圖作為輸入，通過重新排列低分辨率特征圖的通道輸出高分辨率特征圖。通過以這種方式重新排列通道，亞像素卷積層能夠有效地提高圖像的分辨率，而不會引入偽影或模糊。

ESPCN 引入了亞像素卷積的概念來代替反卷積層進行上采樣。這解決了與之相關(guān)的兩個問題：

- 反卷積發(fā)生在高分辨率空間，因此計算成本更高。
- 它解決了反卷積中的棋盤問題，這是由于卷積的重疊操作而發(fā)生的（如下圖所示）。

亞像素卷積通過將深度轉(zhuǎn)換為空間來工作，如下圖所示。來自低分辨率圖像中多個通道的像素被重新排列到高分辨率圖像中的單個通道。舉個例子，尺寸為 5×5×4 的輸入圖像可以將最后四個通道中的像素重新排列為一個通道，從而產(chǎn)生 10×10 高分辨率圖像。

7.3 殘差網(wǎng)絡(luò)殘差網(wǎng)絡(luò)（Residual Networks, 簡稱：ResNets），是一種常用于超分辨率方法的神經(jīng)網(wǎng)絡(luò)架構(gòu)，有時也稱為SRResNet 。在 ResNets 中，網(wǎng)絡(luò)的每一層都包含一個殘差塊，其中包含繞過一層或多層的快捷連接。快捷連接使網(wǎng)絡(luò)能夠?qū)W習(xí)殘差函數(shù)，這些函數(shù)捕獲層的輸入和輸出之間的差異。這有助于防止在訓(xùn)練非常深的神經(jīng)網(wǎng)絡(luò)時可能出現(xiàn)的梯度消失問題。ResNets 用于學(xué)習(xí)低分辨率輸入圖像和高分辨率輸出圖像之間的映射。該網(wǎng)絡(luò)在成對的低分辨率和高分辨率圖像上進行訓(xùn)練，殘差塊用于學(xué)習(xí)將低分辨率輸入映射到高分辨率輸出的殘差函數(shù)。優(yōu)勢是它們能夠?qū)W習(xí)非常深的映射，這可以產(chǎn)生更高質(zhì)量的高分辨率圖像。ResNets 還有助于解決過度擬合的問題，這種問題在小型數(shù)據(jù)集上訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)時可能會發(fā)生。7.3.1 EDSR

EDSR是增強的深度超分（Enhanced Deep Super Resolution）的縮寫，由多個殘差塊組成。EDSR中的殘差塊如上圖所示。EDSR基于SRResNet，與 SRResNet 相比，有以下一些優(yōu)點：

- EDSR 使用比 SRResNet 更深的網(wǎng)絡(luò)，這使其能夠?qū)W習(xí)低分辨率和高分辨率圖像之間更復(fù)雜的映射。EDSR 還使用比 SRResNet 中使用的殘差塊計算效率更高的殘差塊，這有助于降低該方法的總體計算成本。
- EDSR 的另一個進步是刪除批量歸一化層（Batch Normalization layers，簡稱：BN），因為批量歸一化會在超分辨率圖像中引入不需要的偽影。EDSR 使用一種稱為“均值減法”的標(biāo)準化形式來標(biāo)準化每一層的輸入。這有助于減少在訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)時可能發(fā)生的內(nèi)部協(xié)變量偏移問題，而不會引入不需要的偽影。因為去除 BN 會提高準確度，還可減少高達 40% 的內(nèi)存，從而使網(wǎng)絡(luò)訓(xùn)練更加高效。
- EDSR 還使用一種稱為 Charbonnier 損失的新型損失函數(shù)，這是一種 L1 損失，它對異常值的敏感度低于 SRResNet 中使用的均方誤差 (MSE) 損失。這有助于減少超分辨率圖像中的偽影并獲得更高質(zhì)量的結(jié)果。

7.3.2 MDSR

MDSR是多尺度深度超分（multi-scale deep super-resolution）的縮寫。

MDSR 是 EDSR 的擴展，具有多個輸入和輸出模塊，可在 2x、3x 和 4x 提供相應(yīng)的分辨率輸出。一開始，存在用于特定尺度輸入的預(yù)處理模塊，由兩個具有 5×5 內(nèi)核的殘差塊組成。

MDSR使用多個尺度來學(xué)習(xí)低分辨率和高分辨率圖像之間的映射。MDSR可以更有效地處理具有不同細節(jié)級別的圖像。通過使用多個子網(wǎng)絡(luò)，該方法可以學(xué)習(xí)對具有不同細節(jié)量的圖像的不同部分進行上采樣。這有助于保留圖像中的高頻細節(jié)并生成更高質(zhì)量的超分辨率圖像。

MDSR預(yù)處理層中使用更大的內(nèi)核，增加網(wǎng)絡(luò)感受野同時保持其淺層和計算效率。神經(jīng)網(wǎng)絡(luò)的感受野是指網(wǎng)絡(luò)中每個神經(jīng)元對輸入圖像敏感的區(qū)域。在超分技術(shù)領(lǐng)域，感受野越大越好，因為它允許網(wǎng)絡(luò)捕獲有關(guān)輸入圖像的更多信息并產(chǎn)生更高質(zhì)量的高分辨率圖像。增加神經(jīng)網(wǎng)絡(luò)感受野的一種方法是使用更大的卷積核。然而，使用更大的內(nèi)核也會增加網(wǎng)絡(luò)中的參數(shù)數(shù)量，這會導(dǎo)致過度擬合和更慢的訓(xùn)練時間。在多尺度深度超分辨率方法中，一種保持網(wǎng)絡(luò)淺層同時仍實現(xiàn)高感受野的方法是在網(wǎng)絡(luò)的預(yù)處理層中使用更大的卷積核。這些層通常在低分辨率輸入圖像上運行，并用于提取與超分辨率相關(guān)的高級特征。通過在這些層中使用更大的內(nèi)核，網(wǎng)絡(luò)可以在不增加太多參數(shù)數(shù)量的情況下捕獲有關(guān)輸入圖像的更多信息。這有助于提高網(wǎng)絡(luò)性能，同時保持其計算效率。

MDSR在特定比例的預(yù)處理模塊的末尾是共享殘差塊，這是所有分辨率數(shù)據(jù)的公共塊。最后，在共享殘差塊之后是特定比例的上采樣模塊。

MDSR比 EDSR 等方法的計算效率更高。這是因為每個子網(wǎng)絡(luò)都被訓(xùn)練為以較小的因子對輸入圖像進行上采樣，這需要更少的層和更少的參數(shù)。這可以導(dǎo)致更快的訓(xùn)練時間和更低的計算成本。

MDSR的缺點是它們的實施和訓(xùn)練比 EDSR 等方法更復(fù)雜。這是因為它們涉及訓(xùn)練多個子網(wǎng)絡(luò)并組合它們的輸出以生成最終的超分辨率圖像。這可能需要更仔細地調(diào)整超參數(shù)和更長的訓(xùn)練時間。盡管與單尺度 EDSR 相比，MDSR 的整體深度是 5 倍，但由于共享參數(shù)，參數(shù)數(shù)量僅為 2.5 倍，而不是 5 倍。MDSR 取得了與規(guī)模特定的 EDSR 相當(dāng)?shù)慕Y(jié)果。

總的來說，多尺度深度超分辨率和EDSR都各有優(yōu)缺點。方法的選擇取決于應(yīng)用程序的具體要求以及可用于訓(xùn)練和推理的資源。

7.3.3 CARN

CARN是級聯(lián)殘差網(wǎng)絡(luò)（Cascading Residual Network）的縮寫。CARN在傳統(tǒng)殘差網(wǎng)絡(luò)之上提出了以下改進：

局部和全局級別的級聯(lián)機制，合并來自多個層的特征并賦予網(wǎng)絡(luò)接收更多信息的能力。

除了 CARN 之外，在遞歸網(wǎng)絡(luò)架構(gòu)的幫助下，還提出了一個更小的 CARN-M，它具有更輕的架構(gòu)，并且結(jié)果不會有太大的惡化。

CARN 中的全局連接如上圖所示。每個具有 1×1 卷積的級聯(lián)塊的頂點接收來自所有先前級聯(lián)塊的輸入和初始輸入，從而導(dǎo)致信息的有效傳輸。

7.4 多階段殘差網(wǎng)絡(luò)

多級殘差網(wǎng)絡(luò)（Multi-Stage Residual Networks），顧名思義，涉及使用多級或多級殘差網(wǎng)絡(luò)將圖像從低分辨率圖像上采樣到高分辨率圖像。

多階段殘差網(wǎng)絡(luò)中，低分辨率輸入圖像首先通過預(yù)處理階段，該階段通常由一組具有小感受野的卷積層組成。預(yù)處理階段的輸出然后通過一系列殘差階段，每個殘差階段包含多個殘差塊。

在每個階段，網(wǎng)絡(luò)學(xué)習(xí)按特定因子（例如 2 倍或 4 倍）對圖像進行上采樣。然后將每個階段的輸出傳遞到下一個階段，下一個階段通過提高分辨率進一步細化圖像。

多階段殘差網(wǎng)絡(luò)的一個優(yōu)點是它們可以在使用相對較少的參數(shù)的同時生成高質(zhì)量的超分圖像。這是因為使用殘差連接和小的卷積濾波器可以幫助提高網(wǎng)絡(luò)的效率。

總體而言，多級殘差網(wǎng)絡(luò)是一種強大且流行的超分技術(shù)，已在多個基準數(shù)據(jù)集上實現(xiàn)了最先進的性能。

7.4.1 BTSRN BTSRN是平衡兩階段殘差網(wǎng)絡(luò)（balanced two-stage residual networks）的縮寫。

BTSRN使用兩級殘差網(wǎng)絡(luò)將圖像從低分辨率圖像上采樣到高分辨率圖像。與使用多個階段并增加上采樣級別的多階段殘差網(wǎng)絡(luò)相比，BTSRN 平衡每個階段中使用的濾波器數(shù)量以提高網(wǎng)絡(luò)性能。

BTSRN 的第一階段由一系列對低分辨率輸入圖像進行操作的殘差塊組成（如上圖，第一階段由 6 個殘差塊組成。）。此階段通常將輸入圖像的分辨率提高兩倍或四倍。第一階段的輸出隨后被傳遞到第二階段，第二階段進一步將圖像上采樣到所需的高分辨率輸出。

BTSRN 的第二階段使用一組相似的殘差塊，但過濾器數(shù)量與第一階段不同（如上圖，第二階段由 4 個殘差塊組成。）。每個塊中的過濾器數(shù)量是平衡的，以確保網(wǎng)絡(luò)能夠有效地學(xué)習(xí)低級和高級特征。

BTSRN 的一個優(yōu)點是它可以在使用相對較少的參數(shù)的同時生成高質(zhì)量的超分辨率圖像。通過平衡每個階段的過濾器數(shù)量，BTSRN 可以有效地學(xué)習(xí)不同尺度下輸入圖像的特征，這有助于提高網(wǎng)絡(luò)性能。

7.5 遞歸網(wǎng)絡(luò)

遞歸網(wǎng)絡(luò)（Recursive Networks）是使用遞歸或迭代過程從低分辨率輸入生成高分辨率圖像。這種技術(shù)有時也稱為迭代超分辨率（Iterative Super-Resolution）。

遞歸網(wǎng)絡(luò)背后的基本思想是首先使用簡單的插值方法（例如雙三次插值）生成高分辨率圖像的初始估計。然后將該初始估計輸入深度神經(jīng)網(wǎng)絡(luò)，該網(wǎng)絡(luò)通過學(xué)習(xí)提取和合并額外的高頻細節(jié)進一步完善估計。

在神經(jīng)網(wǎng)絡(luò)的每一輪處理之后，使用另一種插值方法（例如最近鄰插值）將生成的圖像放大到所需的分辨率。然后將放大后的圖像反饋到神經(jīng)網(wǎng)絡(luò)中進行進一步處理。這個過程會重復(fù)多次，通常是 5 到 10 輪，直到輸出圖像達到所需的分辨率。

遞歸網(wǎng)絡(luò)的一個優(yōu)點是即使輸入圖像的分辨率非常低，它們也可以生成高質(zhì)量的超分辨率圖像。這是因為網(wǎng)絡(luò)能夠在多個尺度上逐步細化圖像，提取低分辨率輸入中不存在的高頻細節(jié)。

然而，遞歸網(wǎng)絡(luò)的計算成本可能很高，尤其是在使用具有多層的深度神經(jīng)網(wǎng)絡(luò)時。此外，該方法的迭代性質(zhì)有時會導(dǎo)致對訓(xùn)練數(shù)據(jù)的過度擬合，從而導(dǎo)致新圖像的泛化性能不佳。因此，需要仔細的正則化和驗證技術(shù)來確保遞歸網(wǎng)絡(luò)在各種不同的圖像和輸入分辨率上表現(xiàn)良好。

總體而言，BTSRN 是一種強大而有效的超分辨率技術(shù)，已在多個基準數(shù)據(jù)集上實現(xiàn)了最先進的性能。

7.5.1 DRCN DRCN是深度遞歸卷積網(wǎng)絡(luò)（Deeply-Recursive Convolutional Network）的縮寫。

DRCN使用具有大量卷積層的非常深的神經(jīng)網(wǎng)絡(luò)來生成高質(zhì)量的超分辨率圖像。

DRCN 背后的基本思想類似于遞歸網(wǎng)絡(luò)，因為它使用迭代過程從低分辨率輸入中逐漸生成更詳細的圖像。然而，DRCN 不是每次迭代都使用相對較淺的神經(jīng)網(wǎng)絡(luò)，而是使用具有多級遞歸的非常深的網(wǎng)絡(luò)。

DRCN 架構(gòu)由兩個主要組件組成：特征提取網(wǎng)絡(luò)和重建網(wǎng)絡(luò)。特征提取網(wǎng)絡(luò)負責(zé)從輸入圖像中學(xué)習(xí)一組低級和高級特征。該網(wǎng)絡(luò)通常由多層卷積和池化操作組成，類似于典型的卷積神經(jīng)網(wǎng)絡(luò)。

另一方面，重建網(wǎng)絡(luò)負責(zé)根據(jù)特征提取網(wǎng)絡(luò)學(xué)習(xí)的特征生成高分辨率輸出圖像。該網(wǎng)絡(luò)使用一系列反卷積層（也稱為轉(zhuǎn)置卷積層）將特征圖放大到所需的分辨率。

除了這兩個主要組件之外，DRCN 還在特征提取網(wǎng)絡(luò)的每一層和重建網(wǎng)絡(luò)的相應(yīng)層之間加入了跳躍連接。這些跳過連接允許網(wǎng)絡(luò)繞過某些層并保留來自早期處理階段的重要信息。

DRCN 的一個優(yōu)勢是它能夠從輸入圖像中捕獲非常復(fù)雜和高級的特征，這要歸功于其深層架構(gòu)。然而，這也意味著 DRCN 的計算成本可能很高，并且需要大量的訓(xùn)練數(shù)據(jù)才能獲得良好的結(jié)果。此外，跳躍連接的使用有時會導(dǎo)致過度擬合，因此需要仔細的正則化和驗證技術(shù)以確保良好的泛化性能。

7.5.2 DRRN

DRRN是深度遞歸殘差網(wǎng)絡(luò)（Deep Recursive Residual Network）的縮寫。

DRRN建立在殘差網(wǎng)絡(luò) (ResNet) 架構(gòu)和遞歸網(wǎng)絡(luò)中使用的遞歸方法之上。

DRRN 利用一個深度神經(jīng)網(wǎng)絡(luò)架構(gòu)，該架構(gòu)由幾個殘差塊組成，它們之間有跳躍連接。每個殘差塊包含多個卷積層和批量歸一化層，殘差連接將輸入直接傳遞到塊的輸出。這允許網(wǎng)絡(luò)學(xué)習(xí)低分辨率輸入和高分辨率輸出圖像之間的殘差或差異，然后將其添加到低分辨率輸入以生成超分辨率圖像。

DRRN 的遞歸方面來自于它使用遞歸過程來細化超分辨圖像。在每次遞歸迭代中，首先使用雙三次插值或其他簡單的上采樣方法對低分辨率輸入圖像進行放大。然后由 DRRN 網(wǎng)絡(luò)處理此放大圖像以生成初始超分辨率圖像。然后在下一次遞歸迭代中將這個超分辨率圖像用作網(wǎng)絡(luò)的輸入，進一步完善它。這個過程一直持續(xù)到達到所需的超分辨率水平。

由于使用了殘差連接和遞歸方法，DRRN 的優(yōu)勢之一是它能夠使用相對較少的參數(shù)生成高質(zhì)量的超分辨率圖像。此外，批歸一化層的使用有助于加快訓(xùn)練速度并提高泛化性能。然而，DRRN 的計算成本仍然很高，尤其是在每個殘差塊使用大量遞歸迭代或大量卷積層時。

7.6 漸進重建網(wǎng)絡(luò) 漸進重建網(wǎng)絡(luò)（Progressive Reconstruction Networks（PRN））采用漸進方法生成高分辨率圖像。它涉及生成一系列中間圖像，每個圖像的分辨率都比前一個圖像高，直到達到所需的最終分辨率。

PRN 方法包括三個主要階段：從粗到精階段、殘差學(xué)習(xí)階段和重建階段。

- 第一階段，使用雙三次插值或其他簡單的上采樣方法將低分辨率輸入圖像放大到中等分辨率。然后將該中間分辨率圖像用作深度神經(jīng)網(wǎng)絡(luò)的輸入，該網(wǎng)絡(luò)生成分辨率稍高的輸出圖像。這個過程重復(fù)多次，每個階段的輸出用作下一個階段的輸入，直到達到最終所需的分辨率。
- 第二階段，PRN 網(wǎng)絡(luò)使用殘差學(xué)習(xí)方法來細化第一階段生成的中間圖像。殘差學(xué)習(xí)方法涉及學(xué)習(xí)中間圖像與其對應(yīng)的高分辨率地面實況圖像之間的差異。這允許網(wǎng)絡(luò)學(xué)習(xí)生成低分辨率輸入圖像中不存在的高頻細節(jié)。
- 最后的重建階段，將中間圖像組合起來生成最終的高分辨率圖像。這是使用融合技術(shù)完成的，該融合技術(shù)以保留在殘差學(xué)習(xí)階段學(xué)習(xí)到的高頻細節(jié)的方式組合中間圖像。

PRN 的優(yōu)勢之一是它能夠以相對較少的參數(shù)生成高質(zhì)量圖像，這要歸功于漸進式重建和殘差學(xué)習(xí)的使用。此外，PRN 生成的中間圖像可用于其他計算機視覺任務(wù)，例如圖像修復(fù)或去噪。然而，PRN 的計算成本仍然很高，尤其是在生成高分辨率圖像時，并且可能需要大量的計算資源來訓(xùn)練和部署。

7.6.1 LAPSRN

LapSRN 是拉普拉斯金字塔超分網(wǎng)絡(luò)（Laplacian Pyramid Super-Resolution Network）的縮寫。LapSRN通過使用一系列拉普拉斯金字塔對低分辨率圖像進行逐步上采樣來生成高分辨率圖像。拉普拉斯金字塔是一種多尺度圖像表示，可將圖像分解為一系列子帶，每個子帶包含不同級別的細節(jié)。

LapSRN 方法包括三個主要階段：特征提取階段、拉普拉斯金字塔構(gòu)造階段和重建階段。

- 在特征提取階段，低分辨率輸入圖像由深度神經(jīng)網(wǎng)絡(luò)處理，提取多個尺度的特征圖。然后使用這些特征圖在下一階段構(gòu)建拉普拉斯金字塔。
- 在拉普拉斯金字塔構(gòu)造階段，使用拉普拉斯金字塔分解將特征圖分解為一系列子帶。每個子帶代表不同的細節(jié)級別，頻率最高的子帶包含最詳細的信息。
- 在重建階段，拉普拉斯金字塔用于通過使用深度神經(jīng)網(wǎng)絡(luò)逐步對每個子帶進行上采樣來生成高分辨率圖像。上采樣以自下而上的方式完成，最高頻率的子帶首先被上采樣，然后是較低頻率的子帶。上采樣過程是使用卷積層和像素洗牌操作的組合完成的，這允許網(wǎng)絡(luò)學(xué)習(xí)生成高頻細節(jié)。

由于使用了拉普拉斯金字塔分解，LapSRN 的優(yōu)勢之一是它能夠以相對較少的參數(shù)生成高質(zhì)量圖像。此外，拉普拉斯金字塔的使用允許網(wǎng)絡(luò)生成高頻細節(jié)，而不會引入其他超分辨率方法中常見的偽影。然而，LapSRN 的計算成本仍然很高，尤其是在生成高分辨率圖像時，并且可能需要大量的計算資源來訓(xùn)練和部署。

7.7 多分支網(wǎng)絡(luò)

多分支網(wǎng)絡(luò)（Multi-branch networks），也稱為多分支卷積神經(jīng)網(wǎng)絡(luò)，是一種具有多個分支的深度學(xué)習(xí)架構(gòu)，每個分支以不同的方式處理輸入數(shù)據(jù)。每個分支由一系列卷積層組成，然后是激活函數(shù)和池化層。

每個分支中卷積層的輸出以某種方式組合，通常是將它們連接起來，然后傳遞到網(wǎng)絡(luò)中的下一層或分支。這允許網(wǎng)絡(luò)通過同時以多種方式處理輸入數(shù)據(jù)來捕獲輸入數(shù)據(jù)的不同方面。

在超分辨率任務(wù)中，多分支網(wǎng)絡(luò)可用于通過利用輸入圖像的不同尺度和分辨率來生成具有更精細細節(jié)的高質(zhì)量圖像。例如，一個分支可以處理低分辨率的輸入圖像，而另一個分支可以處理高分辨率的圖像。然后可以組合這些分支的輸出，以生成比使用單個分支可能具有更多細節(jié)的高分辨率圖像。

多分支網(wǎng)絡(luò)已成功用于各種計算機視覺任務(wù)，例如對象識別、分割和檢測。多分支網(wǎng)絡(luò)還在超分辨率任務(wù)中生成具有改進的感知質(zhì)量和精細細節(jié)的高質(zhì)量圖像。然而，多分支網(wǎng)絡(luò)的計算成本可能很高，并且需要大量資源來訓(xùn)練和部署。

7.7.1 CMSC

CMSC是級聯(lián)多尺度交叉網(wǎng)絡(luò)（Cascaded Multi-Scale Cross-Network）的縮寫。CMSC是一種利用級聯(lián)多尺度網(wǎng)絡(luò)生成高分辨率圖像的超分辨率方法。CMSC 由兩個主要階段組成：從粗到精階段和微調(diào)階段。

- 在粗到精階段，輸入的低分辨率圖像首先使用雙三次插值放大 2 倍，然后由一系列多尺度網(wǎng)絡(luò)處理。序列中的每個網(wǎng)絡(luò)都設(shè)計為以不同的規(guī)模運行，并專注于圖像的不同方面。然后組合這些網(wǎng)絡(luò)的輸出以生成中間高分辨率圖像。
- 在微調(diào)階段，使用單尺度網(wǎng)絡(luò)進一步細化中間高分辨率圖像。微調(diào)網(wǎng)絡(luò)使用內(nèi)容損失和對抗性損失的組合進行訓(xùn)練，以提高生成圖像的感知質(zhì)量。

CMSC 的關(guān)鍵特征之一是它使用跨網(wǎng)絡(luò)連接，它允許在網(wǎng)絡(luò)的不同規(guī)模和階段之間共享信息。這有助于提高網(wǎng)絡(luò)的準確性和穩(wěn)定性，并使其能夠生成具有精細細節(jié)的高質(zhì)量圖像。

CMSC 的另一個優(yōu)勢是它能夠通過相應(yīng)地調(diào)整網(wǎng)絡(luò)架構(gòu)和訓(xùn)練策略來處理不同的比例因子。這使其成為一種通用且適應(yīng)性強的方法，可應(yīng)用于廣泛的超分辨率任務(wù)。

7.8 注意力網(wǎng)絡(luò)

注意力網(wǎng)絡(luò)（Attention-Based Networks）是指一系列深度學(xué)習(xí)模型，它們利用注意力機制來提高超分辨率圖像的質(zhì)量。引入這些網(wǎng)絡(luò)是為了解決傳統(tǒng)超分辨率技術(shù)的局限性，傳統(tǒng)超分辨率技術(shù)通常使用固定且統(tǒng)一的濾波器來插值低分辨率圖像。基于注意力的網(wǎng)絡(luò)使用一組可學(xué)習(xí)的權(quán)重，這些權(quán)重可以根據(jù)圖像內(nèi)容自適應(yīng)地調(diào)整每個像素的濾波器系數(shù)。這使網(wǎng)絡(luò)能夠?qū)Ｗ⒂趫D像最重要的特征，并生成具有更清晰邊緣和更多細節(jié)的高質(zhì)量超分辨率圖像。

基于注意力的網(wǎng)絡(luò)在超分辨率方面的主要優(yōu)勢在于它們能夠選擇性地關(guān)注圖像中的重要特征，并生成具有更準確細節(jié)的高質(zhì)量超分辨率圖像。此外，這些網(wǎng)絡(luò)可以處理復(fù)雜的圖像結(jié)構(gòu)和圖像內(nèi)容的變化，使其適用于計算機視覺中的廣泛應(yīng)用，例如對象識別、圖像分類和自然語言處理。

7.8.1 SelNet

SelNet是具有注意力機制的選擇性卷積神經(jīng)網(wǎng)絡(luò)（Selective Convolutional Neural Network with Attention Mechanism）的縮寫。SelNet是2019年提出的一種基于注意力的超分辨率網(wǎng)絡(luò)。SelNet旨在選擇性地強調(diào)圖像中的重要特征，同時抑制不相關(guān)的細節(jié)，使其能夠生成高分辨率的質(zhì)量超分辨率圖像。

SelNet 由一系列卷積層組成，后面是一組注意力模塊，這些模塊自適應(yīng)地加權(quán)特征圖中每個像素的重要性。注意模塊由一組卷積層和一個 soft-max 函數(shù)組成，該函數(shù)根據(jù)每個像素與參考特征的相似性為其分配權(quán)重。參考特征是在訓(xùn)練期間學(xué)習(xí)的，代表圖像內(nèi)容的學(xué)習(xí)表示。

SelNet 的關(guān)鍵優(yōu)勢在于它能夠自適應(yīng)地選擇和強調(diào)重要的圖像特征，同時抑制不相關(guān)的細節(jié)。這是通過注意力機制實現(xiàn)的，它允許網(wǎng)絡(luò)學(xué)習(xí)強調(diào)圖像重要區(qū)域的空間變化加權(quán)方案。

與其他基于注意力的網(wǎng)絡(luò)相比，SelNet 相對簡單，但可以有效生成高質(zhì)量的超分辨率圖像。

7.8.2 RCAN

RCAN是剩余通道注意力網(wǎng)絡(luò)（Residual Channel Attention Networks）的縮寫。

RCAN是 2018 年提出的另一種基于注意力的超分辨率網(wǎng)絡(luò)。RCAN 旨在通過使用通道注意力機制來增強網(wǎng)絡(luò)層之間剩余連接的學(xué)習(xí)。

RCAN 由一系列殘差塊組成，其中每個殘差塊包含一個卷積層，后跟一個通道注意模塊。通道注意模塊對每個殘差塊的特征圖進行操作，并根據(jù)每個通道與圖像重建任務(wù)的相關(guān)性自適應(yīng)地對每個通道的重要性進行加權(quán)。

RCAN 中的通道注意力模塊包括兩個步驟：第一步計算每個通道的平均特征激活，而第二步使用一組全連接層來學(xué)習(xí)一組通道權(quán)重，放大或抑制每個通道的重要性渠道。這允許網(wǎng)絡(luò)有選擇地強調(diào)重要通道，同時抑制嘈雜或不相關(guān)的通道。

RCAN 的關(guān)鍵優(yōu)勢在于它能夠更有效地學(xué)習(xí)網(wǎng)絡(luò)層之間的殘余連接。通過結(jié)合通道注意機制，RCAN 可以學(xué)習(xí)選擇性地放大或抑制每個殘差連接的重要性，從而導(dǎo)致更有效的信息流和更好的生成高質(zhì)量超分辨率圖像的性能。

7.9 生成模型

生成模型（Generative models）是指一類深度學(xué)習(xí)模型，它學(xué)習(xí)從低分辨率輸入圖像生成高分辨率圖像。這些模型通常在低分辨率和高分辨率圖像對的數(shù)據(jù)集上進行訓(xùn)練，目標(biāo)是學(xué)習(xí)兩者之間的映射。

超分辨率生成模型的優(yōu)勢在于能夠生成訓(xùn)練集中不存在的高分辨率圖像。這使得它們可用于圖像修復(fù)和具有復(fù)雜內(nèi)容的圖像的超分辨率等任務(wù)。然而，它們也可能比其他超分辨率方法的計算成本更高，并且可能需要更大量的訓(xùn)練數(shù)據(jù)才能獲得良好的性能。

7.9.1 SRGAN SRGAN是超分生成對抗網(wǎng)絡(luò)（Super-Resolution Generative Adversarial Networks）的縮寫。

SRGAN使用生成對抗網(wǎng)絡(luò) (GAN) 從低分辨率輸入圖像生成高分辨率圖像。

SRGAN 的架構(gòu)由兩個網(wǎng)絡(luò)組成：生成器網(wǎng)絡(luò)和鑒別器網(wǎng)絡(luò)。生成器網(wǎng)絡(luò)接收低分辨率圖像并生成高分辨率圖像，而鑒別器網(wǎng)絡(luò)試圖區(qū)分生成的高分辨率圖像和真實的高分辨率圖像。這兩個網(wǎng)絡(luò)以對抗方式進行訓(xùn)練，其中生成器嘗試生成可以欺騙鑒別器的圖像，而鑒別器則嘗試正確區(qū)分真實圖像和生成的圖像。

SRGAN 的關(guān)鍵創(chuàng)新是使用感知損失函數(shù)，它衡量生成的高分辨率圖像與特征空間中相應(yīng)的地面真值高分辨率圖像之間的差異。具體來說，感知損失函數(shù)基于預(yù)訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)，該網(wǎng)絡(luò)計算網(wǎng)絡(luò)不同層的特征圖。通過使用感知損失函數(shù)，SRGAN 能夠生成高分辨率圖像，這些圖像不僅在視覺上與地面真實圖像相似，而且具有相似的高級特征和結(jié)構(gòu)。

SRGAN 已被證明在視覺質(zhì)量和定量指標(biāo)（如峰值信噪比 (PSNR) 和結(jié)構(gòu)相似性指數(shù) (SSIM)）方面實現(xiàn)了最先進的性能。它們還能夠生成具有精細細節(jié)和紋理的圖像，這對于醫(yī)學(xué)成像和衛(wèi)星成像等應(yīng)用非常重要。

7.9.2 EnhanceNet

EnhanceNet 使用深度神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)低分辨率和高分辨率圖像之間的映射。它基于條件 GAN 的概念，其中生成器網(wǎng)絡(luò)從低分辨率輸入圖像生成高分辨率圖像，鑒別器網(wǎng)絡(luò)區(qū)分生成的高分辨率圖像和真實高分辨率圖像。

EnhanceNet 的架構(gòu)由編碼器-解碼器網(wǎng)絡(luò)組成，其中編碼器網(wǎng)絡(luò)將輸入圖像下采樣為低分辨率特征圖，解碼器網(wǎng)絡(luò)將特征圖上采樣為所需的高分辨率輸出圖像。該網(wǎng)絡(luò)使用像素級損失和對抗性損失的組合進行訓(xùn)練，其中像素級損失衡量生成的高分辨率圖像與真實高分辨率圖像之間的差異，而對抗性損失鼓勵生成器網(wǎng)絡(luò)生成與圖像無法區(qū)分的圖像。真正的高分辨率圖像。

EnhanceNet 的獨特之處之一是在編碼器和解碼器網(wǎng)絡(luò)之間使用殘差連接，這有助于在上采樣過程中保留輸入圖像的高頻細節(jié)。此外，EnhanceNet 還采用了一種感知損失函數(shù)，該函數(shù)結(jié)合了預(yù)訓(xùn)練的深度卷積神經(jīng)網(wǎng)絡(luò)（例如 VGG），以根據(jù)感知特征來衡量生成的高分辨率圖像與真實高分辨率圖像之間的相似性。

8. 本期專業(yè)術(shù)語和縮略語匯總

縮寫	英文	中文
UHD??	Ultra High Definition?	超高清視頻
HDR	High Dynamic Range	高動態(tài)范圍
VSR	Video super-resolution	視頻超分技術(shù)
LR	Low Resolution	低分辨率
HR	High Resolution	高分辨率
SISR	Single Image Super-Resolution	單圖像超分技術(shù)
DL	Deep Learning	深度學(xué)習(xí)
ANN	Artificial neural networks	人工神經(jīng)網(wǎng)絡(luò)
DNN	Deep Neural Networks	深度神經(jīng)網(wǎng)絡(luò)
DBN	Deep Belief Networks	深度置信網(wǎng)絡(luò)
DRN	Deep Reinforcement Learning	深度強化學(xué)習(xí)
RNN	Recurrent Neural Networks	遞歸神經(jīng)網(wǎng)絡(luò)
CNN	Convolutional Neural Networks	卷積神經(jīng)網(wǎng)絡(luò)
SKF	Schmidt–Kalman Filter	施密特-卡爾曼濾波器
LMS	least mean squares	最小平均方差
MAP	maximum a posteriori	最大后驗
MRF	Markov random fields	馬爾可夫隨機場
PSNR	Peak Signal-to-Noise Ratio	峰值信噪比
MSE	Mean Square Error	均方誤差
SSIM	Structural SIMilarity	結(jié)構(gòu)相似性
IFC	Information Fidelity Criterion	信息保真度標(biāo)準
VIF	Visual Information Fidelity	視覺信息保真度
MOVIE	Motion-based Video Integrity Evaluation index	基于運動的視頻完整性評估指數(shù)
VMAF	Video Multimethod Assessment Fusion	視頻多方法評估融合
MOS	Mean opinion score	平均意見得分
SRCNN	Super-Resolution Convolutional. Neural Network	超分卷積神經(jīng)網(wǎng)絡(luò)
VDSR	Very Deep Super Resolution	非常深超分
VGG	Visual Geometry Group	視覺幾何組
FSRCNN	Fast Super-Resolution Convolutional Neural Network	快速超分卷積神經(jīng)網(wǎng)絡(luò)
ESPCN	Efficient Sub-Pixel CNN	高效的像素卷積神經(jīng)網(wǎng)絡(luò)
SP	Sub-Pixel	亞像素
ResNets	Residual Networks	殘差網(wǎng)絡(luò)
EDSR	Enhanced Deep Super Resolution	增強的深度超分
BN	Batch Normalization layers	批量歸一化層
MDSR	multi-scale deep super-resolution	多尺度深度超分
CARN	Cascading Residual Network	級聯(lián)殘差網(wǎng)絡(luò)
MSRN	Multi-Stage Residual Networks	多級殘差網(wǎng)絡(luò)
BTSRN	balanced two-stage residual networks	平衡兩階段殘差網(wǎng)絡(luò)
RN	Recursive Networks	遞歸網(wǎng)絡(luò)
ISR	Iterative Super-Resolution	迭代超分辨率
DRCN	Deeply-Recursive Convolutional Network	深度遞歸卷積網(wǎng)絡(luò)
DRRN	Deep Recursive Residual Network	深度遞歸殘差網(wǎng)絡(luò)
PRN	Progressive Reconstruction Networks	漸進重建網(wǎng)絡(luò)
LapSRN	Laplacian Pyramid Super-Resolution Network	拉普拉斯金字塔超分網(wǎng)絡(luò)
MBN	Multi-branch networks	多分支網(wǎng)絡(luò)
CMSC	Cascaded Multi-Scale Cross-Network	級聯(lián)多尺度交叉網(wǎng)絡(luò)
ABN	Attention-Based Networks	注意力網(wǎng)絡(luò)
SelNet	Selective Convolutional Neural Network with Attention Mechanism	具有注意力機制的選擇性卷積神經(jīng)網(wǎng)絡(luò)
RCAN	Residual Channel Attention Networks	剩余通道注意力網(wǎng)絡(luò)
GM	Generative models	生成模型
SRGAN	Super-Resolution Generative Adversarial Networks	超分生成對抗網(wǎng)絡(luò)

好了，恭喜你能看到這里，說明這個萬字長文確實讓您受益了。這是迄今為止，網(wǎng)絡(luò)上最為詳細的介紹超分技術(shù)的文章了，整整寫了18000多字。今天，我們就先聊到這里，下一期，我們再展開談一下超高清視頻的另外一個話題：數(shù)字版權(quán)管理。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴