來(lái)自瑞士蘇黎世聯(lián)邦理工學(xué)院的研究人員們提出了一種基于生成對(duì)抗網(wǎng)絡(luò)(GAN)的框架,可以以高畫(huà)質(zhì)壓縮圖像,并保證圖像尺寸降到最小。以下是論智對(duì)原論文的大致報(bào)道。
基于深度神經(jīng)網(wǎng)絡(luò)的圖像壓縮系統(tǒng)最近逐漸受到人們的關(guān)注。這些系統(tǒng)通常比目前由編碼解碼器驅(qū)動(dòng)的系統(tǒng)(如BPG、WebP和JPEG2000)表現(xiàn)得好,除了能在自然圖像上實(shí)現(xiàn)更高的壓縮率之外,他們可以很容易地適應(yīng)特定目標(biāo)領(lǐng)域,例如立體圖像或醫(yī)學(xué)圖像,并且可以從壓縮版本中直接進(jìn)行高效地處理和索引。
然而,對(duì)于低于像素深度低于0.1bpp的圖像來(lái)說(shuō),這些算法仍會(huì)導(dǎo)致嚴(yán)重的畫(huà)質(zhì)下降。隨著比特率趨近于零,想呈現(xiàn)完整地圖像內(nèi)容就很困難,而且這樣會(huì)使峰值信噪比(PSNR)或多比例結(jié)構(gòu)相似性(MS-SSIM)等常見(jiàn)指標(biāo)將變得毫無(wú)意義,因?yàn)樗鼈兏鼉A向于精確地保留局部(高熵)結(jié)構(gòu),而不是保持總體的紋理。
為了進(jìn)一步提升深度圖像壓縮的質(zhì)量,開(kāi)發(fā)超越PSNR和MS-SSIM的新指標(biāo)非常重要。其中重點(diǎn)關(guān)注的是對(duì)抗損失,最近的成果表明它能捕捉到全局的語(yǔ)義信息和局部紋理,產(chǎn)生強(qiáng)大的生成器,從而通過(guò)語(yǔ)義標(biāo)簽映射生成在視覺(jué)上吸引人的高分辨率圖像。
于是,來(lái)自蘇黎世聯(lián)邦理工學(xué)院的研究人員們提出并研究了基于生成對(duì)抗網(wǎng)絡(luò)(GAN)的針對(duì)極限壓縮圖像的框架,目標(biāo)是像素深度低于0.1bpp的圖像。他們提出了一個(gè)通用性的GAN公式,用于深度圖像壓縮,可以生成不同程度的圖像內(nèi)容。與先前的圖像壓縮工作相比,這次的生成器/解碼器在全分辨率的圖像上工作,并用多尺度鑒別器進(jìn)行訓(xùn)練。
研究人員對(duì)兩種操作模式進(jìn)行了分別研究:
全局生成壓縮(GC),保留圖像所有內(nèi)容,同時(shí)生成不同尺寸的結(jié)構(gòu),例如樹(shù)上的葉子或者某建筑物陽(yáng)臺(tái)上的窗戶(hù);
選擇性生成壓縮(SC),只通過(guò)語(yǔ)義標(biāo)簽映射生成圖像的部分內(nèi)容,同時(shí)以高還原度保留用戶(hù)指定區(qū)域。
上圖是研究人員所提出的壓縮網(wǎng)絡(luò)。E代表圖像x的編碼器,或者作為圖像s的語(yǔ)義標(biāo)簽映射。q將潛在的代碼w量化為w^。G是生成器,產(chǎn)生解壓縮的圖像x^,D是用于對(duì)抗訓(xùn)練的鑒別器。對(duì)于SC,F(xiàn)從s中提取特征,經(jīng)過(guò)二次采樣的熱圖乘以z^以分配空間位。
GC的典型應(yīng)用場(chǎng)景是帶寬受限的區(qū)域,在這種情況下用戶(hù)想盡可能保留完整的圖像,但沒(méi)有足夠的位數(shù)儲(chǔ)存原始像素,無(wú)法合成塊狀或模糊的斑點(diǎn),只能合成內(nèi)容。SC可以用于視頻場(chǎng)景,如果用戶(hù)想要完全保留視頻中的人物,但是看起來(lái)吸引人的合成背景能滿(mǎn)足我們的目的,即作為真實(shí)的背景。在GC操作模式下,圖像被轉(zhuǎn)換成比特流格式,并且用算數(shù)編碼進(jìn)行編碼。SC需要一個(gè)原圖的語(yǔ)義或?qū)嵗龢?biāo)簽映射,它們可以從語(yǔ)義或?qū)嵗指罹W(wǎng)絡(luò)得來(lái)(例如PSPNet或Mask R-CNN)。相比于編碼的成本,這種圖像壓縮的開(kāi)銷(xiāo)是少的。另一方面,壓縮圖像的大小根據(jù)語(yǔ)義標(biāo)簽生成的區(qū)域按比例減少,通常也會(huì)降低儲(chǔ)存成本。
經(jīng)過(guò)綜合性的研究,在GC方面,研究人員提出的壓縮系統(tǒng)生成的圖像結(jié)果比BPG和基于自動(dòng)編碼器的深度壓縮系統(tǒng)更好(BPG是目前最優(yōu)秀的壓縮算法)。尤其是從Cityscapes數(shù)據(jù)集中選取的街景圖片,用戶(hù)更喜歡本次系統(tǒng)生成的圖片,即使BPG使用的位數(shù)是我們的兩倍。據(jù)他們所知,這是第一個(gè)證明深度壓縮方法由于BPG的研究。
在SC操作模式中,該系統(tǒng)能將圖像中保留下來(lái)的內(nèi)容和合成內(nèi)容無(wú)縫銜接,即使被許多物體隔開(kāi)的場(chǎng)景也很自然。利用這種分區(qū)域圖像生成的方法,圖像的像素深度減少了50%,但是沒(méi)有明顯降低圖像質(zhì)量。
結(jié)果對(duì)比
下面的表格展示了本文提出的方法的結(jié)果和最先進(jìn)的系統(tǒng)在Cityscapes數(shù)據(jù)集上的對(duì)比:
此次試驗(yàn)結(jié)果要比BPG好,即使當(dāng)BPG使用的bpp數(shù)量是我們的兩倍也是如此。在本文中,系統(tǒng)在ADE20K數(shù)據(jù)集和Kodak壓縮基準(zhǔn)測(cè)試上獲得了相似的結(jié)果。
接著,研究人員用經(jīng)過(guò)預(yù)訓(xùn)練的PSPNet來(lái)測(cè)量保留的語(yǔ)義,結(jié)果如下:
與BPG相比,我們達(dá)到了較高的mIoU的值,利用語(yǔ)義進(jìn)行訓(xùn)練時(shí)這個(gè)值進(jìn)一步增加
將所提的方法與其他方法對(duì)比。同樣一張Kodak Image 13,用本文所提出的方法壓縮與BPG、JPEG2000等方法效果非常不同:
在選擇性合成方面,該方法可以選擇性地保留一部分內(nèi)容,將剩下的部分重新合成。
左下角的熱圖顯示了合成對(duì)象,灰色是合成的部分。同時(shí)還顯示了每張圖的bpp,以及由于選擇性生成節(jié)省的尺寸
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4779瀏覽量
101171 -
GaN
+關(guān)注
關(guān)注
19文章
1965瀏覽量
74239
原文標(biāo)題:基于GAN的極限圖像壓縮框架
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論