去年,我在 LinkedIn 上閱讀到一篇很有趣的文章,內(nèi)容涉及使用基于深度學習的超分辨率網(wǎng)絡來增加美國宇航局毅力號(Nasa’s Perseverance Rover)發(fā)回的圖像和視頻中包含的細微細節(jié)。這篇文章讓我回想到,我在 90 年代第一次觀看《銀翼殺手》時,基于當時可用的技術,諸如“將 15 增強到 23”之類的場景似乎如此難以置信。那時(因為《銀翼殺手》之類的電影),我正在攻讀為期三年的人工智能學位課程,我無法預測到千禧年初深度學習革命的影響。你不能添加不存在的東西,我一直對自己說。但現(xiàn)在看來,你可以——而且非常有說服力。
超分辨率如何應用于現(xiàn)實世界?
超分辨率的應用非常廣泛:從舊照片的懷舊修復和著色到通過對低分辨率源內(nèi)容進行上采樣來減少視頻流帶寬。正如“放大火星”(Upscaling Mars)一文的作者所解釋的那樣,升級行星探索飛行器上的攝像頭是不可行的,因此,如果需要通過提高分辨率來獲得更多細節(jié),或者甚至在機載鏡頭變得模糊或損壞的災難性場景中,最先進的超分辨率技術可以提供巨大的價值。也有許多例子表明,很多原始圖像是黑白的或是歷史圖像視頻,隨著分辨率的提高,通過著色,它們被重新激活。
什么是基于深度學習的超分辨率?
基于深度學習的超分辨率是將學習的上采樣(up-sampling)函數(shù)應用于圖像的過程,目的是增強圖像中現(xiàn)有的像素數(shù)據(jù)或生成合理的新像素數(shù)據(jù),從而提高圖像的分辨率。事實上,上面提到的著色示例提供了一些關于深度學習如何利用上下文關系和自然圖像的統(tǒng)計信息的見解。假設您有一個輸入面片(卷積神經(jīng)網(wǎng)絡輸入圖像的一個區(qū)域)“x”,那么在相應的輸出面片y的顏色上存在一個條件概率分布 p( y|x ) 。
這種分布在生成輸出顏色時基本考慮了上下文關系。著色神經(jīng)網(wǎng)絡通常近似于這種分布模式:它了解到黑白輸入圖像的特定部分(面片)有可能是特定的顏色或顏色范圍,基于網(wǎng)絡訓練時與類似輸入面片對應的先前輸出面片。這就是黑白照片或視頻的著色方式。
超分辨率網(wǎng)絡正在以類似的方式解決一個非常類似的問題:在這種情況下,它已經(jīng)學會了根據(jù)低分辨率輸入面片x的上下文生成最有可能的高分辨率輸出面片Y。
放大圖像的功能已經(jīng)存在了一段時間,所以你可能會問,為什么我們需要另一種方法?現(xiàn)有技術包括最近鄰、雙線性和雙三次(三次卷積)上采樣,這些技術在迄今為止的大多數(shù)圖像和視頻上縮放應用中已經(jīng)足夠了。然而,如下所示的放大輸出圖像的裁剪,突出顯示了以這種方式將圖像放大到更大分辨率時產(chǎn)生的一些不良偽影。
如上圖所示,輸出圖像的裁剪包含豹子胡須上稱為“鋸齒”的偽影,最近鄰算法也難以重建皮膚紋理,從而導致像素化。雙線性和雙三次算法往往會使圖像過度柔化,使其看起來失焦,缺乏細節(jié)。
這些限制,加上提高顯示分辨率能力的宏觀趨勢,在保持當前功率預算和性能的同時,正在為該領域激發(fā)一些非常令人興奮的創(chuàng)新。
Visidon是一家芬蘭公司,成立于 2006 年,擅長使用基于人工智能的軟件技術來增強靜態(tài)圖像和視頻內(nèi)容。它開發(fā)了一套基于深度學習的超分辨率網(wǎng)絡,可以將 1080p分辨率的圖像和視頻縮放到 4K (2160p) 和 8K (4320p) 分辨率。已經(jīng)設計和訓練了三個基于深度學習的超分辨率網(wǎng)絡(VD1、VD2 和 VD3),每個網(wǎng)絡的目標分別是:
快速雙三次質(zhì)量推理 (VD1)
快速且優(yōu)于雙三次質(zhì)量推理 (VD2)
靜止圖像的最高質(zhì)量超分辨率推理 (VD3)。
Imagination 如何幫助部署和加速這些算法
在60幀的情況下,使用超分辨率來提高圖像和視頻內(nèi)容的分辨率,,這需要大量計算,而這正是 Imagination 可以提供幫助的地方。我們的 IMG 4系列 AI 計算引擎采用張量分片技術,旨在為基于卷積的神經(jīng)網(wǎng)絡提供低系統(tǒng)帶寬、高推理率的執(zhí)行——這是Visidon超分辨率解決方案中的主要算法。
圖1: IMG 4NX-MC8,Imagination 的可擴展多核架構。
我們的多核架構和獲得專利的張量分片技術相結合,可以在并行處理的同時將大量圖像和權重數(shù)據(jù)保留在芯片上,從而產(chǎn)生可擴展、強大的超分辨率性能,如下圖所示:
表1:IMG 4系列 NNA計算引擎上的Visidon超分辨率網(wǎng)絡性能(將 1080p 視頻轉(zhuǎn)換為 4K 分辨率)
Visidon如何衡量視覺質(zhì)量
Visidon網(wǎng)絡的質(zhì)量由專家和非專家參與者使用隨機盲評進行評估,兩組評估人員分別為七個輸出版本(三個Visidon網(wǎng)絡 (VD1-3) 和lanczos4,雙三次,雙線性和最近鄰)進行評分。Visidon的VD 超分辨率網(wǎng)絡質(zhì)量與現(xiàn)有的基于非深度學習的上采樣算法的比較如下表所示:
評估人員之前沒有看過網(wǎng)絡的圖像或結果,也不允許討論結果。然后將分數(shù)標準化為 1 到 5,其中雙三次曲線的參考分數(shù)為2。
現(xiàn)在是你一直在等待的部分——視覺效果!
現(xiàn)在讓我們來看看Visidon 的VD1、VD3 和 VD3 網(wǎng)絡的結果,它們可以通過張量分片有效地部署在Imaginations 4系列NNA上。
注:樣本圖像來自Flickr2K 數(shù)據(jù)集,可免費用于商業(yè)用途,OpenCV 庫用于 lanczos4、雙三次、雙線性以及最近鄰放大,因此可以驗證結果。
上面的圖像對比突出了Visidon的VD3超分辨率算法的卓越品質(zhì),使花朵的所有部分都清晰、無噪,尤其是花瓣細節(jié)和黃色雄蕊。雙三次算法無法充分處理邊緣,使其不會因平滑而丟失。另請參閱內(nèi)部花瓣與花的深色中心區(qū)域相交的位置。
另一個很好的例子是,通過Visidon網(wǎng)絡中的適當銳化,樹葉和巖石定義得以保留,而這在雙三次上采樣的平滑中完全丟失了。
在這個比較中,Visidon 的VD2 網(wǎng)絡體現(xiàn)了微羽毛的細節(jié)和清晰度,考慮到輸入圖像在某些地方出現(xiàn)混疊,這令人印象深刻。VD2 網(wǎng)絡通過保留羽毛圖案的復雜性來從中恢復,而雙三次算法無法做到這一點。喙部的細節(jié)和掠過它的小羽毛仍然清晰可見,沒有明顯的階梯效應——這在雙三次輸出圖像中可以看到,盡管很微妙。
此圖像對比突出了Visidon 的VD1 網(wǎng)絡的基線目標,即在質(zhì)量上優(yōu)于雙三次上采樣,同時提供非常高的推理性能。因此,雖然 VD1 在評估中產(chǎn)生了最低的感知質(zhì)量,但其輸出比雙三次放大更清晰,可以保留了眼睛下方羽毛的細節(jié),并且爪子下方樹枝上的紋理明顯更清晰。
在這里,我們看到Visidon 的網(wǎng)絡巧妙地恢復了雙三次放大中丟失的細節(jié)。多虧了Visidon 的VD3 網(wǎng)絡,原始非常模糊的原始圖像的一小部分得以精細的細節(jié)呈現(xiàn)出來。此外,請注意VD3 放大中水面的反射細節(jié)。難以置信!
結論
在計算能力可用于實時超分辨率圖像和視頻之前,現(xiàn)有算法已經(jīng)滿足了高達 1080p 分辨率的觀眾。但隨著 4K(和 8K)顯示器質(zhì)量的不斷提高,非深度學習算法的軟化并不能完全滿足新一代高分辨率觀看的需要。
因此,如果采用放大技術將低分辨率內(nèi)容傳遞到高分辨率屏幕,則必須以智能和上下文的方式保留源圖像和視頻的細節(jié),以提供最愉悅的視覺體驗。
Imagination 的 IMG 4系列NNA AI 計算引擎提高了計算能力,可以提供低功耗、低面積和系統(tǒng)帶寬可擴展的卷積神經(jīng)網(wǎng)絡加速,使其成為部署Visidon最先進的基于深度學習的超分辨率解決方案的完美平臺。
-
芯片
+關注
關注
459文章
51952瀏覽量
433990 -
AI
+關注
關注
87文章
33628瀏覽量
274364 -
imagination
+關注
關注
1文章
591瀏覽量
61909
發(fā)布評論請先 登錄
如何提高透鏡成像的分辨率
如何選擇掃描電鏡的分辨率?

基于圖像光譜超分辨率的蘋果糖度檢測

HDMI接口支持哪些視頻分辨率
微軟發(fā)布DirectSR新預覽版:整合FSR 3.1超分辨率技術
高分辨率音頻和傳統(tǒng)音頻區(qū)別

Arm精銳超級分辨率技術解析

評論