據(jù)披露,阿里巴巴研發(fā)部門近期推出了一款名為 AtomoVideo 的高保真 I2V(即 Image to Video)框架,可將靜態(tài)圖像轉(zhuǎn)化成精美的視頻內(nèi)容。其主要特點(diǎn)有:
1. 高保真度:生成視頻與輸入圖片在細(xì)節(jié)和風(fēng)格上保持一致;
2. 運(yùn)動(dòng)連貫:視頻流暢無跳躍,保證時(shí)間上的連續(xù)性;
3. 視頻幀預(yù)測:通過精確的預(yù)測來支持長時(shí)延視頻序列生成;
4. 兼容性強(qiáng):適配現(xiàn)有各式各樣的 T2I(Text-to-image)模型;
5. 高語義控制力:能夠針對客戶特殊需求,打造個(gè)性化的視頻內(nèi)容。
AtomoVideo運(yùn)用預(yù)設(shè)的 T2I 模型,在每個(gè)空間卷積層和注意力層后新增一維時(shí)空卷積和注意力模塊?,F(xiàn)有的 T2I 模型參數(shù)固定不變,它們只會(huì)訓(xùn)練新增的時(shí)空層,而輸入的串聯(lián)圖像信息由 VAE 編碼解析,這代表的是低層次信息,有利于提高視頻對輸入圖像的還原度。此外,團(tuán)隊(duì)還使用 Cross-Attention 的方法融入高級圖像語義,以加強(qiáng)圖像語義可控性。
目前,該項(xiàng)目僅發(fā)布了論文和演示視頻,尚未開放線上試用途徑。另外,阿里巴巴已開啟 GitHub 賬號,但現(xiàn)在只是作為官方網(wǎng)站的托管地,并不包含相關(guān)代碼分享。
-
圖像
+關(guān)注
關(guān)注
2文章
1089瀏覽量
40592 -
阿里巴巴
+關(guān)注
關(guān)注
7文章
1622瀏覽量
47572 -
模型
+關(guān)注
關(guān)注
1文章
3342瀏覽量
49271
發(fā)布評論請先 登錄
相關(guān)推薦
評論