想記錄美好瞬間,手機還沒掏出來就結(jié)束了,怎么辦!不要慌,谷歌近日發(fā)明了一款能自動捕捉精彩時刻的相機,它能識別出那些有意義、值得記錄的場景,并在博客上公開了這一技術(shù)。以下是論智的編譯。
對我來說,照相就是在一瞬間,對某件事的本質(zhì)和組織形式進行同步記錄的過程?!狧enri Cartier-Bresson
過去幾年,AI產(chǎn)品呈現(xiàn)爆炸式增長,深度學習算法讓計算機視覺技術(shù)能認得一幅好照片滿足的各種元素:人物、微笑、寵物、落日、著名地標等等。但是,除了最近的進步,自動拍照仍然是一個非常具有挑戰(zhàn)性的問題,即相機能否自動捕捉到一個完美的瞬間呢?
最近,我們發(fā)布了Google Clips,這款相機無需手動操作,就能自動捕捉你生活中有趣的時刻。在設計它時,我們遵循了三條重要的原則:
我們想將計算設計成置于移動端的。除了延長電池的壽命并減少延遲,在移動設備中進行處理意味著你所有的照片都不會自動從設備上刪除,除非你想保存或分享它們,這是有關隱私控制的關鍵。
我們想讓設備捕捉短視頻,而非單一的照片。有動作的時刻才是真正的回憶,并且錄像比拍照要容易得多。
我們想捕捉人或?qū)櫸镫S意自然的時刻,而不想拍出一張抽象的藝術(shù)照。也就是說,我們不會教Clips考慮構(gòu)圖、色彩平衡、光線等因素,而是要注意選擇拍攝的時間,其中要包含人或動物有趣的瞬間。
學習辨認美好瞬間
如何訓練一套算法學會辨認有趣的時刻呢?和眾多機器學習問題一樣,我們先從數(shù)據(jù)集開始。我們創(chuàng)建了一個含有上千段視頻的數(shù)據(jù)集,視頻展示的是不同場景,假設這是用Clips制作出來的。同時,還要保證視頻涵蓋了不同種族、性別和年齡階段的人。之后,我們招募了一些專業(yè)攝影師和視頻編輯師,對這些視頻加注并選出最佳短視頻片段。篩選之后,剩余的視頻讓我們對算法最后達到的目標有了概念。但是,只靠這些由人類挑選出來的視頻訓練算法仍然很困難,我們還需要得到一個平滑的標簽梯度,從“perfect”到“terrible”,讓算法學會辨認照片的質(zhì)量。
為了解決這個問題,我們又加入了一種數(shù)據(jù)收集方法,目的是讓模型生成連續(xù)高質(zhì)量的視頻。我們吧每段視頻分割成一小段一小段的(就像Clips捕捉到的那樣),然后隨機選取兩段作為一組,讓人們從中選出他們認為更好地一段。
我們之所以選用這種比較法而不直接讓人打分,正是因為二選一比打出具體的分數(shù)更容易。我們發(fā)現(xiàn),大家在做二選一時的意見是比較一致的,如果打分的話就不那么統(tǒng)一了。如果某段視頻經(jīng)過足夠多的小片段對比,我們就能計算出整段視頻的連續(xù)質(zhì)量分數(shù)。在這一過程中,我們從超過1000段視頻中一共收集了5000萬個對比片段,工作量真的非常大!
訓練視頻片段質(zhì)量模型
有了上述的質(zhì)量分數(shù)作為訓練數(shù)據(jù),下一步我們就要訓練神經(jīng)網(wǎng)絡模型預測設備所拍攝的照片質(zhì)量。首先,我們假設:模型如果能知道照片里有什么(人物、狗狗或者大樹等等),將有助于提高視頻的趣味性。如果這個假設是對的,我們可以學習一個方程,通過辨認照片上的內(nèi)容預測短視頻的質(zhì)量分數(shù)。
為了辨認我們訓練數(shù)據(jù)中的內(nèi)容標簽,我們用了谷歌圖像搜索中的機器學習技術(shù),它可以辨認超過27000種不同的標簽,包括描述物體、概念和動作等標簽。當然,我們不會用到所有的標簽,專業(yè)的攝影師只從中挑選了幾百個他們認為“有趣的”標簽。我們還添加了其他能描述照片質(zhì)量的標簽。
標簽集建立好之后,我們就需要設計一個緊湊高效的模型,可以預測任意提供的照片。由于計算機視覺技術(shù)背后都需要強大的GPU支持,想讓算法在移動設備上運行很可能會使速度降低許多。為了訓練這個移動設備模型,我們首先建立了大型照片數(shù)據(jù)集,然后用谷歌的圖像識別模型預測每個被打上“有趣”標簽的照片可信度。然后訓練一個MobileNet圖像內(nèi)容模型(ICM),模仿谷歌模型的預測結(jié)果。這樣這一緊湊的模型就能夠辨認出照片中最有趣的元素了,同時還能忽略不相關的內(nèi)容。
最后一步,就是要根據(jù)ICM判斷的內(nèi)容預測單張照片的質(zhì)量分數(shù)。這一分數(shù)是由一個分段線性回歸模型計算出來的,它結(jié)合了ICM的輸出和幀質(zhì)量分數(shù)。這個幀質(zhì)量分數(shù)是由視頻片段組合成摸個靜止時刻的分數(shù)再取平均數(shù)得來的。通過讓人們對兩個視頻片段進行對比,我們的模型應該會計算出比人類更高的分數(shù)。這一模型經(jīng)過訓練,所以它的預測盡可能地和人類的選擇相似。
生成幀質(zhì)量分數(shù)的訓練過程。分段線性回歸將ICM的嵌入映射到一個分數(shù)
這一過程訓練出的模型既有谷歌圖像識別技術(shù),又加入了人類打分員的評分。雖然由數(shù)據(jù)生成的結(jié)果很好地定義了哪些是“有趣時刻”,但我們?nèi)匀辉谀承┣榫持屑尤肓祟~外分數(shù),因為我們希望能讓Clips捕捉到,包括人臉、微笑、寵物等。在最近的版本中,我們還加入了例如擁抱、親吻、跳躍、跳舞等特殊的動作。分辨這些活動需要擴展ICM模型。
拍照控制器
有了預測場景趣味性的模型,Clips相機可以實時決定該捕捉哪些鏡頭。模型的拍照控制算法遵循了以下三個原則:
分別供能 & 熱成像:我們想讓Clips的電池續(xù)航大致達到3個小時,并且不想讓設備過熱。Clips大部分都在捕捉幀的速度是每秒一幀,這是不怎么耗電的。如果捕捉的幀的質(zhì)量超過了Clips最近設立的范圍,它就會編程每秒捕捉15幀,這是非常耗電的模式。Clips會在之后保存第一個質(zhì)量最高的圖片。
避免重復:我們不想讓Clips一次捕捉所有的動作,同時忽略其他部分。我們的算法會將看起來相似的視頻集合起來,然后限制其中的數(shù)量。
后見之明:當你檢查捕捉到的全部片段后,才能決定哪一片段更好。所以,Clips會收集比預定要多的片段。當這些視頻要被轉(zhuǎn)換到設備上前,Clips會再次檢查,將最佳的、最獨特的視頻傳到設備上。
機器學習的公平性
為了保證我們的視頻數(shù)據(jù)集具有多樣性,我們還創(chuàng)建了一些其他的測試,保證算法的公平性。我們創(chuàng)建了一個控制變量數(shù)據(jù)集,其中的樣本對象擁有著不同的性別和膚色,保證其他因素(視頻類型、時長、環(huán)境條件)相同。然后,我們用這一數(shù)據(jù)集測試我們的算法,結(jié)果表明雖然對象不同,但性能相似。為了檢測出當改進視頻質(zhì)量模型時所出現(xiàn)的公平性減弱,我們在自動系統(tǒng)中加入了公平性檢測。軟件中的任何改變都會經(jīng)過這一測試。需要注意的是,這一方法并不能保證絕對的公平,因為我們不可能測試任何可能的產(chǎn)經(jīng)和輸出。然而,我們相信這些步驟對于達到機器學習的公平是很有幫助的。
-
谷歌
+關注
關注
27文章
6220瀏覽量
107361 -
機器學習
+關注
關注
66文章
8484瀏覽量
133969 -
深度學習
+關注
關注
73文章
5553瀏覽量
122405
原文標題:谷歌用深度學習創(chuàng)建自動相機Clips,替你記錄美好瞬間
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
一款基于幀捕捉的開源圖形調(diào)試器應用設計

名校學生逃課四月發(fā)明自動種樹機器人
求教工業(yè)相機的哪一款性價比高?
SuperEye一款內(nèi)置CPU的相機--mangotree出品
驢友強烈推薦的一款4K運動相機,用過都說好!
谷歌推出了一款名為“Clips”的新設備 并開始銷售這款產(chǎn)品
Ambarella推出一款名為CV2的新型相機SoC

卡內(nèi)基梅隆大學研發(fā)了一款投影觸控智能手表
Lucid VR宣布與相機公司RED合作,開發(fā)一款用于拍攝8K視頻和圖像的180度立體相機
日本一公司推出一款“雨傘無人機”,又一款然并卵的發(fā)明
Yi Halo是一款不一樣的VR相機,可在谷歌的Jump平臺上運行
中國小伙發(fā)明無人相機,引美國各大媒體都爭相報道……
國外發(fā)明了一種反向太陽能電池 可利用夜間地球輻射熱量產(chǎn)生電光源
TECNO全球首發(fā)智能手機行業(yè)第一款雙棱鏡潛望大角度長焦相機

評論