好看的课外书,武道至尊帝临小说,我欲封天耳根小说零

近日，DeepMind的研究人員研發(fā)了一個(gè)名叫Dual Video Discriminator GAN（DVD－GAN）的人工智能模型，該模型通過(guò)能夠通過(guò)學(xué)習(xí)一系列的YouTube視頻數(shù)據(jù)集，生成高度逼真且連貫的256 x 256像素視頻，最長(zhǎng)可達(dá)48幀。

目前，DVD－GAN的研究成果已于美國(guó)時(shí)間2019年7月15日發(fā)表在arxiv上，名為《在復(fù)雜數(shù)據(jù)集上的高效視頻生成（Efficient Video Generation on Complex Datasets）》。

AI造假視頻比造假圖片更難

最近，俄羅斯AI研究人員開(kāi)發(fā)的FaceApp著實(shí)大火了一把，這款應(yīng)用通過(guò)人工智能技術(shù)能夠改變用戶自拍照的年齡、外貌、發(fā)色和性別，甚至可以生成虛構(gòu)的人物照片。這直接讓人們近距離地感受了人工智能技術(shù)給我們的生活帶來(lái)的樂(lè)趣。

但是否有人想過(guò)，有朝一日這些技術(shù)也能應(yīng)用在視頻領(lǐng)域呢？

如果說(shuō)BigGAN是DeepMind在圖像領(lǐng)域開(kāi)發(fā)的能夠生成高度逼真圖像的圖像生成器，那么DeepMind研究人員們開(kāi)發(fā)的DVD－GAN，就是人工智能在視頻剪輯生成領(lǐng)域的最新突破。

研究人員在論文中表示，生成自然視頻對(duì)生成式建模來(lái)說(shuō)是一個(gè)較大的挑戰(zhàn)，同時(shí)還會(huì)受到數(shù)據(jù)復(fù)雜性和計(jì)算需求增加的困擾。

因此，之前業(yè)界的研究人員們?cè)谘芯恳曨l生成領(lǐng)域時(shí)，幾乎都圍繞著相對(duì)簡(jiǎn)單的數(shù)據(jù)集，或者采用有限的時(shí)間信息來(lái)降低任務(wù)的復(fù)雜程度。

而這次，DeepMind的研究人員們主要針對(duì)視頻合成和視頻預(yù)測(cè)的任務(wù)，將生成圖像模型的強(qiáng)大功能和逼真效果擴(kuò)展到視頻領(lǐng)域。

DVD－GAN：基于BigGAN模型結(jié)構(gòu)

研究人員們基于BigGAN的模型結(jié)構(gòu)，構(gòu)建了DVD－GAN的系統(tǒng)，并引入了一系列用于視頻生成的調(diào)整，使DVD－GAN能夠在Kinetics－600上進(jìn)行訓(xùn)練。

Kinetics－600是一組由50萬(wàn)段10秒高分辨率的YouTube視頻剪輯匯編而成的訓(xùn)練數(shù)據(jù)集，它最初是為識(shí)別人類動(dòng)作而制作的，比目前其他常用的語(yǔ)料庫(kù)還大一個(gè)數(shù)量級(jí)。

同時(shí)，研究人員們表示，Kinetics－600具有多樣化特征，能消除他們對(duì)過(guò)擬合（Overfitting）的擔(dān)憂。過(guò)擬合主要是指機(jī)器學(xué)習(xí)時(shí)選擇的模型所包含的參數(shù)過(guò)多，以至出現(xiàn)這一模型對(duì)已知數(shù)據(jù)預(yù)測(cè)得很好，但對(duì)未知數(shù)據(jù)預(yù)測(cè)得很差的現(xiàn)象。

另一方面，DeepMind的研究人員們利用生成對(duì)抗以提供一個(gè)能生成動(dòng)作的學(xué)習(xí)信號(hào)。

此外，DVD－GAN還有一個(gè)單獨(dú)的Transformer模塊，它可以讓學(xué)習(xí)信息在整合AI模型中傳播。

訓(xùn)練12至96小時(shí)即可生成視頻

研究論文表明，在經(jīng)過(guò)Google第三代TPU訓(xùn)練了12至96個(gè)小時(shí)后，DVD－GAN可以成功地生成視頻，這些視頻內(nèi)容包含了物體的組成和運(yùn)動(dòng)，以及各種復(fù)雜的紋理。

不足的是，DVD－GAN生成的視頻內(nèi)容有時(shí)較為“詭異”，例如生成的物體和人形奇形怪狀，甚至人體忽長(zhǎng)忽短地變化。

但研究人員指出，當(dāng)把DVD－GAN放在UCF－101（一個(gè)包含13320個(gè)人類動(dòng)作視頻的較小數(shù)據(jù)集）上進(jìn)行評(píng)估后，DVD－GAN生成的樣本初始值最高為32．97。

DeepMind的研究人員們希望能進(jìn)一步強(qiáng)調(diào)在大型復(fù)雜視頻數(shù)據(jù)集上訓(xùn)練生成模型的好處，例如Kinetics－600。

“我們?cè)O(shè)想通過(guò)DVD－GAN在這個(gè)數(shù)據(jù)集上建立強(qiáng)大的基線，該基線將被用作未來(lái)建模生成領(lǐng)域的參考點(diǎn)。”研究人員表示，“盡管在不受約束的環(huán)境下持續(xù)生成逼真的視頻還需要進(jìn)行很多工作，但我們相信DVD－GAN是我們朝這個(gè)方向邁出的重要一步。”

網(wǎng)絡(luò)（GANs）來(lái)區(qū)分生成樣本和真實(shí)世界樣本，該網(wǎng)絡(luò)主要由生成器和判別器兩部分組成。

GANs曾被應(yīng)用在把文字轉(zhuǎn)換成一幕幕的場(chǎng)景故事，或生成人造星系圖像等任務(wù)中。而研究人員們這次使用的是名為BigGANs的生成對(duì)抗網(wǎng)絡(luò)，該網(wǎng)絡(luò)以大批量和數(shù)百萬(wàn)個(gè)參數(shù)而得名。

值得一提的是，DVD－GAN包含兩個(gè)判別器。一個(gè)是空間判別器（Spatial Discriminator：D＿S），該判別器通過(guò)隨機(jī)采樣全分辨率幀并單獨(dú)處理，以評(píng)估單個(gè)幀的內(nèi)容和結(jié)構(gòu)；另一個(gè)是時(shí)間判別器（Temporal Discriminator：D＿T），它可以提供一個(gè)能生成動(dòng)作的學(xué)習(xí)信號(hào)。

此外，DVD－GAN還有一個(gè)單獨(dú)的Transformer模塊，它可以讓學(xué)習(xí)信息在整合AI模型中傳播。

結(jié)語(yǔ)：用AI生成高度逼真視頻的一次嘗試

不管是BigGAN還是FaceApp，以往的研究人員們?cè)谌斯ぶ悄苌蓤D像領(lǐng)域進(jìn)行了許多具有突破性的研究，但在視頻領(lǐng)域，除了AI換臉曾火了一把之外，并沒(méi)有更多的突破性進(jìn)展。

而DeepMind的研究人員們基于BigGAN架構(gòu)和Kinetics－600訓(xùn)練數(shù)據(jù)集開(kāi)發(fā)的DVD－GAN，利用計(jì)算高效的判別器分解，擴(kuò)展到時(shí)間更長(zhǎng)、分辨率更高的視頻。就目前來(lái)說(shuō)，雖然這一成果還有些許不足，但這無(wú)疑是研究人員們利用AI生成高度逼真視頻的一次重要嘗試。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

DVD

DVD

+關(guān)注

關(guān)注
3

文章
134

瀏覽量
62657
人工智能

人工智能

+關(guān)注

關(guān)注
1805

文章
48863

瀏覽量
247645

原文標(biāo)題：[機(jī)器人頻道｜大事記](méi)你擔(dān)心的就要成真，AI換臉不算啥，現(xiàn)在新AI可生成逼真視頻

文章出處：【微信號(hào)：robovideo，微信公眾號(hào)：機(jī)器人頻道】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

DVD－GAN機(jī)器人用AI生成高度逼真視頻的一次重要的嘗試

評(píng)論