移動(dòng)互聯(lián)網(wǎng)時(shí)代,人類生產(chǎn)的新數(shù)據(jù)正以指數(shù)級(jí)別增長(zhǎng),數(shù)據(jù)中心越來(lái)越大,并消耗著地球上難以想象的巨大能耗,但人類依然可能面臨著“數(shù)據(jù)無(wú)處存放”的境地。
因此,讓文件變小一點(diǎn),這絕對(duì)是個(gè)值得投資的點(diǎn)子。
神劇《硅谷》劇組就選中了這個(gè)點(diǎn)子。在劇中,幾個(gè)主角的得以創(chuàng)業(yè)成功的核心算法——“魔笛”即是選中了“壓縮”這一多數(shù)人都能理解但對(duì)技術(shù)要求頗高的領(lǐng)域:允許用戶在線將圖片壓縮至一半的大小,并依然保持其清晰度。
“魔笛算法”也一度引發(fā)了不少跟風(fēng)打造屬于自己的“魔笛手”,此外,包括谷歌等人工智能巨頭公司近年來(lái)也在這個(gè)領(lǐng)域頻頻發(fā)力。
2016年,谷歌相關(guān)團(tuán)隊(duì)推出了一款叫RAISR(Rapid and Accurate Image Super-ResoluTIon)的圖像壓縮技術(shù)。希望以人工智能技術(shù)作為壓縮路徑,將圖片大小壓縮到源文件的1/4, 但基本不會(huì)改變圖片的清晰度。
盡管引來(lái)如此高的關(guān)注,但很多人還是不認(rèn)可它會(huì)在未來(lái)的發(fā)展中取得壓倒性的優(yōu)勢(shì)。谷歌的RAISR算法也被不好業(yè)內(nèi)認(rèn)識(shí)吐槽說(shuō)“壓縮一張圖片耗時(shí)久”、“壓縮后圖片清晰度沒(méi)有那么高”等等。
谷歌機(jī)器學(xué)習(xí)工程師、Jetpac創(chuàng)始人Pete Warden近期發(fā)布了一篇文章,認(rèn)為在短期內(nèi)壓縮算法可能會(huì)成為機(jī)器學(xué)習(xí)應(yīng)用最可能出現(xiàn)的殺手級(jí)應(yīng)用的領(lǐng)域,他從“壓縮”這一技術(shù)的起源開(kāi)始,希望告訴大家問(wèn)什么壓縮技術(shù)的前景是如此的廣闊。
大數(shù)據(jù)文摘對(duì)這篇文章進(jìn)行了編譯。
OSDI上的一篇文章“神經(jīng)自適應(yīng)型內(nèi)容感知互聯(lián)網(wǎng)視頻傳輸”激發(fā)了我對(duì)這一領(lǐng)域的興趣。
這篇文章告訴我們:通過(guò)神經(jīng)網(wǎng)絡(luò),在帶寬相同的條件下,用戶體驗(yàn)將能提高43%,或者在帶寬縮減17%的條件下可以保持體驗(yàn)的質(zhì)量基本不變。還有其他同類的論文將類似方法運(yùn)用在了生成壓縮或自適應(yīng)圖像壓縮等方面。他們都展示出了驚人的成果。那么,為何我們不把機(jī)器學(xué)習(xí)更廣泛地應(yīng)用在文件壓縮方面呢?
我們尚未擁有性能配套的計(jì)算設(shè)備
上文所提到的所有方法都需要相對(duì)較大的神經(jīng)網(wǎng)絡(luò),并且所需的計(jì)算量與像素?cái)?shù)量成正比。這意味著大型圖片文件或每秒幀數(shù)較高的視頻文件可能需要比當(dāng)前廣泛使用的移動(dòng)設(shè)備更強(qiáng)的計(jì)算能力。
現(xiàn)行的大多數(shù)CPU每秒僅能處理百億級(jí)的運(yùn)算,而在高清視頻上用機(jī)器學(xué)習(xí)進(jìn)行壓縮很輕易便能達(dá)到十倍于此的計(jì)算量。
當(dāng)然,好消息是目前我們已經(jīng)有了一些硬件解決方案,比如Edge TPU等,可以讓我們看到未來(lái)達(dá)到更多計(jì)算量的可能性。我期待這種壓縮方法能夠運(yùn)用到各種類型文件的壓縮轉(zhuǎn)換上,從視頻到圖像,到音頻,乃至更多充滿想象力的方式。
自然語(yǔ)言是終極壓縮目標(biāo)
近來(lái)機(jī)器學(xué)習(xí)在自然語(yǔ)言處理中取得了大量有趣的成果。這是另一個(gè)讓我覺(jué)得機(jī)器學(xué)習(xí)是較為優(yōu)越的壓縮轉(zhuǎn)換途徑的原因。
如果你稍稍觀察,便會(huì)發(fā)現(xiàn)字幕其實(shí)是將聲音壓縮為圖像的一種形式。我一直想做一個(gè)項(xiàng)目,試圖創(chuàng)造出一種相機(jī),每秒生成一幀字幕,并將所有字幕逐一按行輸出至一個(gè)日志文件中。由此便可簡(jiǎn)單記錄下基于相機(jī)的拍攝內(nèi)容隨時(shí)間的推移而發(fā)生的故事,這可以被定義為一個(gè)敘事類的傳感器。
我將這一技術(shù)歸類到壓縮方法中的原因是你可以通過(guò)生成性的神經(jīng)網(wǎng)絡(luò)將字幕還原為圖像。盡管重新生成的圖像不會(huì)跟原圖像完全一致,但也能夠從原圖像繼承一些信息。如果你希望結(jié)果與原圖像盡可能接近,你也可以從風(fēng)格化方面考慮,例如為每個(gè)場(chǎng)景生成簡(jiǎn)圖。這些技術(shù)的共同特征在于他們提取出了輸入文件中對(duì)于我們?nèi)祟愔匾牟糠郑⑹÷粤擞嘞碌牟糠帧?/p>
不僅僅是圖像
語(yǔ)言世界也有類似的趨勢(shì)。語(yǔ)音識(shí)別正在迅速改進(jìn),合成語(yǔ)音的能力也在迅速提高。識(shí)別可以看作是將音頻壓縮為自然語(yǔ)言文本的過(guò)程,而合成則恰好相反。你可以想象將對(duì)話高度壓縮為自然語(yǔ)言文字而非音頻。誠(chéng)然,我們不需要達(dá)到那種要求,但似乎通過(guò)擴(kuò)展我們對(duì)于表達(dá)的認(rèn)知類型,我們可以實(shí)現(xiàn)在低帶寬情況下的更好的結(jié)果。
我甚至還發(fā)現(xiàn)一些有趣的將機(jī)器學(xué)習(xí)應(yīng)用在文本本身上的可能性。Andrej Karpathy的CHAR-RNN(遞歸神經(jīng)網(wǎng)絡(luò))展示了神經(jīng)網(wǎng)絡(luò)對(duì)某些模板進(jìn)行模仿的優(yōu)越性,而對(duì)于壓縮技術(shù)來(lái)說(shuō),預(yù)測(cè)也是相同的道理。考慮到普通的HTML頁(yè)面有不少冗余,這一情況下GZIP壓縮方法似乎有很大機(jī)率能被機(jī)器學(xué)習(xí)改進(jìn),盡管我認(rèn)為這沒(méi)有機(jī)器學(xué)習(xí)對(duì)文本的處理那么容易。
對(duì)于壓縮的研究已立項(xiàng)撥款
在我創(chuàng)業(yè)期間,營(yíng)銷失敗的經(jīng)歷讓我學(xué)到了一件事:如果已經(jīng)有一筆預(yù)算要購(gòu)買你所推銷的產(chǎn)品,該產(chǎn)品的銷售會(huì)容易得多。預(yù)算的存在意味著公司在是否應(yīng)該花錢(qián)購(gòu)買解決方案上已經(jīng)贏得了艱難的斗爭(zhēng),現(xiàn)在唯一的問(wèn)題是購(gòu)買哪種解決方案。
這也是我認(rèn)為機(jī)器學(xué)習(xí)可以在這個(gè)領(lǐng)域取得巨大突破的原因之一,因?yàn)橹圃焐桃呀?jīng)擁有專門(mén)用于視頻和音頻壓縮的工程師、資金和芯片。如果我們能夠證明將機(jī)器學(xué)習(xí)添加到現(xiàn)有解決方案中能夠以一些可度量的方式(例如質(zhì)量、速度或功耗)改進(jìn)它們,那么它們將被快速采用。
帶寬將會(huì)花費(fèi)用戶和運(yùn)營(yíng)商的大量的成本,質(zhì)量和電池壽命將會(huì)成為產(chǎn)品的賣點(diǎn),因此采用機(jī)器學(xué)習(xí)改進(jìn)壓縮的優(yōu)勢(shì)將比其他運(yùn)用更為顯而易見(jiàn)。
許多激動(dòng)人心的研究表明這種方式將會(huì)非常高效,而且我樂(lè)觀地認(rèn)為還有許多應(yīng)用尚未被發(fā)掘。我希望機(jī)器學(xué)習(xí)在壓縮中的應(yīng)用將發(fā)展成為一門(mén)核心技術(shù)。
-
谷歌
+關(guān)注
關(guān)注
27文章
6225瀏覽量
107618 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4810瀏覽量
102920 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8493瀏覽量
134166
原文標(biāo)題:被《硅谷》選中的“壓縮算法”,為什么說(shuō)下一個(gè)機(jī)器學(xué)習(xí)殺手應(yīng)用將由此誕生
文章出處:【微信號(hào):CAAI-1981,微信公眾號(hào):中國(guó)人工智能學(xué)會(huì)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
人臉識(shí)別終端應(yīng)用在不同領(lǐng)域,有什么優(yōu)勢(shì)和注意事項(xiàng)?

DLP160CP DMD是否可以應(yīng)用于機(jī)器視覺(jué)應(yīng)用?
Norflash閃存芯片HT25Q20D廣泛應(yīng)用在汽車電子領(lǐng)域

評(píng)論