C位是近年網(wǎng)絡(luò)上一個比較熱門的詞,最早來源于DOTA等游戲領(lǐng)域,是核心位置(Carry位)的簡稱,代表的是能夠在游戲前中期打錢發(fā)育并在游戲后期帶領(lǐng)隊伍力挽狂瀾的角色。現(xiàn)在C位一詞逐漸擴大到了娛樂圈乃至我們的生活中,在社交、表演、比賽以及各種日常活動場景中,只要當某一個人在人群中處于中心位置,即最重要的人,大家便稱呼他是C位(Center位)。
在包含眾多人像的照片中,由于每個人的穿著和動作各異,同時人與人之間存在各種交互信息,以及所處的場景不同,我們通過肉眼來確定C位的時候可能會出現(xiàn)各種偏差。在人工智能快速發(fā)展的今天,我們能否可以通過AI來自動找出C位呢?答案當然是肯定的。在這篇文章中,我們將介紹如何利用計算機視覺和深度學(xué)習(xí)技術(shù)構(gòu)建一個性能優(yōu)異的C位檢測器,從而快速準確地在一群人中發(fā)現(xiàn)真正站C位的那個最重要的人。
C位檢測器前傳
C位檢測器的目標是檢測出一群人中最重要的人。一般來說,C位檢測器主要由兩部分組成,第一部分是人臉/全身檢測模型,通過該模型首先檢測出照片中的所有人像;第二部分是人像重要性預(yù)測模型,通過該模型對檢測出的每個人像計算重要性得分,重要性得分最高的人即為C位。
當前的人臉/全身檢測模型的性能已經(jīng)比較理想,而人像重要性預(yù)測模型還處在研究和探索階段,所以下面我們的內(nèi)容將主要圍繞如何量化一群人中每個人的重要性展開。
最直接的人像重要性計算可以基于照片中人像所處的位置和面積進行設(shè)計,例如,離照片中心點越近則重要性越高,人像的面積越大則重要性越高等等。然而我們判斷一個人是不是C位,除了利用照片中人像所處的位置和面積這類人像自身的幾何信息外,還會根據(jù)照片上的各種信息綜合判斷:人像自身的外表信息(上圖(a))、與其他人之間的關(guān)系信息(上圖(b))以及所處的全局場景信息(上圖(c))。
人與人之間的關(guān)系和人與場景之間的關(guān)系對C位的判斷起到關(guān)鍵性作用。如果我們只利用人像的自身特征進行重要性計算,例如上圖(a)中的紅框女性,我們其實無法知道她是否是照片中最重要的人。但我們通過她與周圍人之間和與整體場景之間的關(guān)系信息分析便可以得出她是C位的結(jié)論。
一個理想的人像重要性預(yù)測模型應(yīng)根據(jù)上面提到的各方面信息進行聯(lián)合計算。如何提取照片上豐富的多元化信息?如何對人與人之間和人與場景之間的關(guān)系建模,從而獲取高層次的語義信息?如何最終根據(jù)照片上人像的多元化信息和高層次語義信息的特征進行重要性評估?這些都是擺在我們面前的問題,需要我們?nèi)ヒ灰唤鉀Q。
一個出色的C位檢測器
為了解決上節(jié)末提出的三個問題,我們實驗室的小伙伴們攻堅克難,提出了一種全新而高效的人像重要性預(yù)測模型,構(gòu)建了一個出色的C位檢測器,相關(guān)工作發(fā)表在CVPR 2019。下面我們對其中的模型框架和建模思路進行一一介紹,希望給大家?guī)砀嗟膯l(fā)和思考。
整個人像重要性預(yù)測模型分為三個模塊,分別是特征表達模塊、關(guān)系計算模塊和重要性分類模塊。特征表達模塊能夠有效地提取照片中每個人的自身特征和整張照片的全局場景特征。關(guān)系計算模塊能夠?qū)θ伺c人之間和人與場景之間的關(guān)系進行建模。重要性分類模塊能夠計算每個人像的重要性得分,從而最終識別出最重要的C位人選。完整的模型框架如下圖所示。
特征表達模塊針對上節(jié)末“如何提取照片上豐富的多元化信息?”這一問題進行設(shè)計。為了充分地獲取人像自身豐富的特征表達,人像的外表信息和幾何信息都會進行特征提取。深度卷積神經(jīng)網(wǎng)絡(luò)被用來實現(xiàn)提取流程,如下圖所示。其中,外表信息被分為內(nèi)在(綠框)和外在(藍框)兩部分,內(nèi)在區(qū)域更多提取人像固有的外表信息,外在區(qū)域更多用于提取人像外表以及與周圍環(huán)境的上下文信息,從而保證了人像信息的多元化。此外整張照片的全局場景信息(黃框)也會通過卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)特征提取。
關(guān)系計算模塊針對上節(jié)末“如何對人與人之間和人與場景之間的關(guān)系建模,從而獲取高層次的語義信息?”這一問題進行設(shè)計,是整個模型中最關(guān)鍵的模塊。在該模塊中,關(guān)系網(wǎng)絡(luò)(Relation Networks)被用來對在特征表達模塊中提取的人像特征和場景特征進行關(guān)系建模。關(guān)系網(wǎng)絡(luò)能夠在沒有額外監(jiān)督信息的前提下,自動學(xué)習(xí)人與人之間和人與場景之間的關(guān)系,從而提取更高層次的語義信息以表征人在場景中的重要性。具體會分別建立人與人之間的關(guān)系圖和人與場景之間的關(guān)系圖,通過多個并行的關(guān)系網(wǎng)絡(luò)提取關(guān)系特征并連接,再與原有的人像特征相加,得到最終的特征表達。
重要性分類模塊針對上節(jié)末“如何最終根據(jù)照片上人像的多元化信息以及高層次語義信息的特征進行重要性評估?”這一問題進行設(shè)計。通過對在關(guān)系計算模型中提取的每個人像的最終特征表達進行重要/不重要的二分類,將每個人像被分為重要這個類別的概率作為重要性得分,得分最高的人像就是模型認定的C位。
以上三個模塊一起實現(xiàn)了端到端的人像重要性訓(xùn)練和預(yù)測。最后我們來看一看利用上述模型進行C位檢測的可視化結(jié)果。紅框代表的是模型檢測出來的C位,綠框代表的是當前其他最好方法的檢測結(jié)果,可以看出在充分考慮了照片中人與人之間和人與場景之間的關(guān)系信息后,在各種復(fù)雜場景下,AI均能夠準確地檢測出真正的C位。
C位檢測可以自動快速地在人群中找出最重要的那個人。通過這篇文章,我們介紹了利用AI進行C位檢測的一般流程和遇到的挑戰(zhàn),也進一步分享了一種優(yōu)秀的C位檢測器的構(gòu)建思路與過程。其中的更多細節(jié)大家可以在arXiv上搜索《Learning to Learn Relation for Important People Detection in Still Images》進行查看。最后祝大家都能在各自的領(lǐng)域內(nèi)不斷進步,實現(xiàn)自我價值,站上屬于自己的C位。
-
機器視覺
+關(guān)注
關(guān)注
163文章
4524瀏覽量
122670 -
人工智能
+關(guān)注
關(guān)注
1805文章
48932瀏覽量
248204 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5557瀏覽量
122680
原文標題:誰才是真正的C位,讓AI告訴你
文章出處:【微信號:TheBigData1024,微信公眾號:人工智能與大數(shù)據(jù)技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
聲紋解鎖個性化!啟明云端硅思物語AI平臺讓設(shè)備“認準你的聲音”

神眸引領(lǐng)AI智能視覺新范式,讓科技更有溫度

你失去工作不是因為AI,而是因為使用AI的人

【「零基礎(chǔ)開發(fā)AI Agent」閱讀體驗】+關(guān)于AI Agent開發(fā)入門的第一印象與相關(guān)官方文檔和社區(qū)資料的內(nèi)容補充
首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手
利爾達AI豆系列C位出道!快來Pick你的智能新頂流

AnyDesk vs. Raspberry Pi Connect,誰才是“遠程霸主”?

AI全能助手 三星Galaxy S25系列讓生活更高效便捷
啟明智顯AI服務(wù)機器人解決方案:智能硬件方案的佼佼者

【「AI Agent應(yīng)用與項目實戰(zhàn)」閱讀體驗】書籍介紹
如何在STM32f4系列開發(fā)板上部署STM32Cube.AI,

評論