近日,國(guó)際頂級(jí)會(huì)議ICCV 2025(計(jì)算機(jī)視覺國(guó)際大會(huì))公布論文錄用結(jié)果,格靈深瞳團(tuán)隊(duì)共有6篇論文入選。
作為CV領(lǐng)域最具國(guó)際影響力的三大頂級(jí)會(huì)議之一,本屆ICCV競(jìng)爭(zhēng)十分激烈。據(jù)公開信息,今年大會(huì)共收到11239份有效投稿,數(shù)量為史上最多。經(jīng)過(guò)評(píng)審后,僅接受2698篇論文,錄用率為24%。
格靈深瞳此次入選的6篇論文,涉及視覺基座模型、人臉3D重建、文檔幾何校正、人體動(dòng)作生成、魯棒三維重建等多個(gè)視覺AI研究關(guān)鍵方向,展現(xiàn)了格靈深瞳深耕多年的核心技術(shù)積累和前沿創(chuàng)新實(shí)力,每一項(xiàng)成果都具有前瞻的科研價(jià)值和實(shí)際應(yīng)用意義。
此次入選的6篇論文核心內(nèi)容如下:
視覺基座模型
格靈深瞳與華為諾亞研究院合作的論文Region-based Cluster Discrimination for Visual Representation Learning中稿,其創(chuàng)新性在于,通過(guò)引入?yún)^(qū)域Transformer層和高效的區(qū)域聚類判別損失,有效提升視覺模型對(duì)局部區(qū)域信息的感知與表達(dá)能力,使其在OCR、目標(biāo)檢測(cè)和分割等密集視覺任務(wù)中表現(xiàn)突出。
同時(shí),RICE采用大規(guī)模候選區(qū)域數(shù)據(jù)集,統(tǒng)一目標(biāo)識(shí)別與OCR學(xué)習(xí)。在多項(xiàng)下游任務(wù)中,RICE均優(yōu)于SigLIP2、AIMv2,無(wú)需顯式語(yǔ)言監(jiān)督,即可成為強(qiáng)大的多模態(tài)視覺大模型基座,展現(xiàn)出卓越的通用性和擴(kuò)展?jié)摿Α?/p>
人臉3D重建、膚色估計(jì)
格靈深瞳與悉尼科技大學(xué)、浙江大學(xué)、帝國(guó)理工學(xué)院合作的HUST,方法創(chuàng)新性體現(xiàn)在:無(wú)需昂貴的光場(chǎng)采集數(shù)據(jù),僅憑單張圖片即可實(shí)現(xiàn)高保真、無(wú)偏見的人臉漫反射反照率重建。
該論文通過(guò)提出“反照率即去光照紋理”的新見解,結(jié)合VQGAN預(yù)訓(xùn)練和有限UV紋理微調(diào),模型有效利用大規(guī)模高分辨率人臉數(shù)據(jù)。跨空間自適應(yīng)與群體身份損失實(shí)現(xiàn)域遷移,提升了不同膚色的泛化能力。HUST在FAIR基準(zhǔn)上取得了當(dāng)前最優(yōu)的準(zhǔn)確性和公平性指標(biāo)。
文檔幾何校正
格靈深瞳與360移動(dòng)算法部合作的ForCenNet,其創(chuàng)新性體現(xiàn)在:提出了前景為中心的標(biāo)簽生成方法和掩碼機(jī)制,顯著提升了對(duì)文檔可讀區(qū)域的幾何校正能力。
同時(shí),該論文方法設(shè)計(jì)了曲率一致性損失,有效約束線性結(jié)構(gòu)的變形,提升了校正精度。實(shí)驗(yàn)結(jié)果表明方法在多個(gè)真實(shí)基準(zhǔn)上均取得了新的最優(yōu)表現(xiàn)。
人體動(dòng)作生成
格靈深瞳與浙江大學(xué)合作的MotionStreamer,提出了一種全新的流式人體動(dòng)作生成框架。通過(guò)在連續(xù)的因果潛空間中進(jìn)行自回歸,并使用擴(kuò)散模型建模每個(gè)潛在變量的概率分布,實(shí)現(xiàn)高效的流式生成。
流式框架天然支持多輪交互式動(dòng)作生成、長(zhǎng)序列動(dòng)作生成、動(dòng)態(tài)動(dòng)作組合等多種應(yīng)用。
人體動(dòng)作生成
格靈深瞳與浙江大學(xué)合作的Motion-2-to-3,創(chuàng)新性地使用大量的人類二維視頻,以提升文本驅(qū)動(dòng)的三維運(yùn)動(dòng)生成。研究通過(guò)解耦局部關(guān)節(jié)運(yùn)動(dòng)與全局運(yùn)動(dòng),從二維數(shù)據(jù)高效學(xué)習(xí)局部運(yùn)動(dòng)先驗(yàn)。先在大規(guī)模文本-二維運(yùn)動(dòng)數(shù)據(jù)集上訓(xùn)練單視角生成器,再用三維數(shù)據(jù)微調(diào)為多視角生成器,預(yù)測(cè)視角一致的局部關(guān)節(jié)運(yùn)動(dòng)和根節(jié)點(diǎn)動(dòng)態(tài)。
實(shí)驗(yàn)表明,該方法能高效利用二維數(shù)據(jù),生成更廣泛,更多類型的真實(shí)三維人體運(yùn)動(dòng),為相關(guān)行業(yè)帶來(lái)新機(jī)遇。
魯棒三維重建
格靈深瞳與浙江大學(xué)合作的UniVerse,首次將視頻擴(kuò)散模型引入到魯棒3D重建中,通過(guò)先把不一致的多視圖圖像轉(zhuǎn)化為一致視頻幀,再進(jìn)行高質(zhì)量神經(jīng)場(chǎng)重建,有效解耦了“修復(fù)”和“重建”兩大任務(wù)。
近年來(lái),格靈深瞳大力投入視覺基礎(chǔ)模型、多模態(tài)大模型等AI核心技術(shù)研發(fā),積極與各大高校、企業(yè)開展研究合作,聚合產(chǎn)學(xué)研力量,促進(jìn)學(xué)術(shù)深度交流。此次亮相國(guó)際頂級(jí)學(xué)術(shù)平臺(tái),是對(duì)團(tuán)隊(duì)科研實(shí)力與成果的檢驗(yàn)和肯定。
未來(lái),格靈深瞳將持續(xù)發(fā)力前沿技術(shù)創(chuàng)新研究,促進(jìn)科研成果轉(zhuǎn)化應(yīng)用,引領(lǐng)行業(yè)共同發(fā)展進(jìn)步。
-
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7653瀏覽量
90631 -
模型
+關(guān)注
關(guān)注
1文章
3513瀏覽量
50319 -
格靈深瞳
+關(guān)注
關(guān)注
1文章
61瀏覽量
5711
原文標(biāo)題:格靈深瞳6篇論文亮相國(guó)際頂級(jí)學(xué)術(shù)舞臺(tái),涵蓋視覺基座模型、人臉3D重建等領(lǐng)域
文章出處:【微信號(hào):shentongzhineng,微信公眾號(hào):格靈深瞳】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
格靈深瞳亮相AICon 2025全球人工智能開發(fā)與應(yīng)用大會(huì)
Nullmax端到端自動(dòng)駕駛最新研究成果入選ICCV 2025

評(píng)論