在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI視頻年大爆發(fā)!2023年AI視頻生成領(lǐng)域的現(xiàn)狀全盤點(diǎn)

OpenCV學(xué)堂 ? 來源:新智元 ? 2024-02-20 10:40 ? 次閱讀

2023年,也是AI視頻元年。過去一年究竟有哪些爆款應(yīng)用誕生,未來視頻生成領(lǐng)域面臨的難題還有哪些?

過去一年,AI視頻領(lǐng)域我們見證了,Gen-2、Pika等爆款產(chǎn)品的誕生。

來自a16z的Justine Moore,詳細(xì)盤點(diǎn)了人工智能視頻生成領(lǐng)域的現(xiàn)狀、不同模型比較,以及還未解決的技術(shù)挑戰(zhàn)。

4889e5b4-cf38-11ee-a297-92fbcf53809c.png

接下來,一起看看這篇文章都講了什么?

4899c13c-cf38-11ee-a297-92fbcf53809c.png

AI視頻生成大爆發(fā)

2023年是AI視頻取得突破的一年。不過,今年過去了一個月,暫未有公開的文本到視頻的模型。

短短12個月,數(shù)十種視頻生成產(chǎn)品受到了全球數(shù)以萬計的用戶的青睞。

不過,這些AI視頻生成工具仍相對有限,多數(shù)只能生成3-4秒的視頻,同時質(zhì)量往往參差不齊,角色一致性等問題尚未解決。

也就是說,我們還遠(yuǎn)不能制作出一個只有文字提示,甚至多個提示的皮克斯級別的短片。

然而,我們在過去一年中在視頻生成方面取得的進(jìn)步表明,世界正處于一場大規(guī)模變革的早期階段——與我們在圖像生成方面看到的情況類似。

我們看到,文本到視頻的模型在不斷改進(jìn),圖像到視頻,以及視頻到視頻等分支也在蓬勃發(fā)展。

為了幫助了解這一創(chuàng)新的爆炸式增長,a16z追蹤了到目前為止最需要關(guān)注的公司,以及該領(lǐng)域仍然存在的潛在問題。

wKgaomXUEVyANWD1AAMVy8_kLxk520.jpg

今天,你可以在哪里生成AI視頻?

21個視頻生成產(chǎn)品

今年到目前為止,a16z已經(jīng)跟蹤了21種公開產(chǎn)品。

雖然你可能聽說過Runway、Pika、Genmo和Stable Video Diffusion,但還有許多其他的東西需要探索。

wKgZomXUEVyARFiOAARAYxTYoKQ858.jpg

這些產(chǎn)品大多來自初創(chuàng)公司,其中許多都是從Discord bots,有以下幾個優(yōu)勢:

不需要構(gòu)建自己面向消費(fèi)者的界面,只需專注于模型質(zhì)量

可以利用Discord每月1.5億活躍用戶的基礎(chǔ)進(jìn)行分發(fā)

公共渠道為新用戶提供了一種簡便的方式,讓他們獲得創(chuàng)作靈感(通過查看他人的創(chuàng)作)

然而,隨著技術(shù)成熟,我們開始看到越來越多的AI視頻產(chǎn)品建立自己的網(wǎng)站,甚至是App。

隨著Discord提供了一個很好的平臺,但在純生成之上添加的工作流而言,卻是有限的,并且團(tuán)隊對消費(fèi)者體驗的控制很少。

值得注意的是,還有很大一部分人不使用Discord,因其覺得界面混亂讓人困惑。

研究和技術(shù)

谷歌、Meta和其他公司在哪里?

在公開的產(chǎn)品列表中,他們顯然沒有出現(xiàn)--盡管你可能已經(jīng)看到了他們發(fā)布的關(guān)于Emu Video、VideoPoet 和 Lumiere等模型的帖子。

到目前為止,大型科技公司基本上都不選擇公開自家的AI視頻產(chǎn)品。

取而代之的是,他們發(fā)表了各種相關(guān)的視頻生成的論文,而沒有選擇視頻演示。

比如,谷歌文本生成視頻的模型Lumiere

48c7ff52-cf38-11ee-a297-92fbcf53809c.png

這些公司有著巨大的分銷優(yōu)勢,其產(chǎn)品擁有數(shù)十億用戶。

那么,他們?yōu)槭裁床环艞壈l(fā)布視頻模型,而在這一新興類別市場中奪取巨大份額。

最主要的原因還是,法律、安全和版權(quán)方面的擔(dān)憂,往往使這些大公司很難將研究轉(zhuǎn)化為產(chǎn)品,并推遲推出。如此一來,讓新來者有機(jī)會獲得先發(fā)優(yōu)勢。

AI視頻的下一步是什么?

如果你曾使用過這些產(chǎn)品,便知道在AI視頻進(jìn)入主流產(chǎn)品之前,仍然有很大的改進(jìn)空間。

有時會發(fā)現(xiàn),AI視頻工具可以將提示內(nèi)容生成視頻的「神奇時刻」,但這種情況相對較少見。更常見的情況是,你需要點(diǎn)擊幾次重新生成,然后裁剪或編輯輸出,才能獲得專業(yè)級別的片段。

這一領(lǐng)域的大多數(shù)公司都專注于解決一些核心的問題:

控制性:你能否同時控制場景中發(fā)生的事情,(比如,提示「有人向前走」,動作是否如描述的那樣?)關(guān)于后一點(diǎn),許多產(chǎn)品都增加了一些功能,允許你對鏡頭zoom或pan,甚至添加特效。

「動作是否如描述的那樣」一直較難解決:這涉及到底層模型的質(zhì)量問題(模型是否理解提示的含義并能按要求生成),盡管一些公司正在努力在生成前提供更多的用戶控制。

比如,Runway的motion brush就是一個很好的例子,它允許用戶高粱圖像的特定區(qū)域并確定其運(yùn)動方式。

時間一致性:如何讓角色、對象和背景在幀之間保持一致,而不會變形為其他東西或扭曲?

在所有公開提供的模型中,這是一個非常常見的問題。

如果你今天看到一段時間連貫的視頻,時長超過幾秒,很可能是視頻到視頻,通過拍攝一段視頻,然后用AnimateDiff prompt travel之類的工具來改變風(fēng)格。

長度——制作長時間的短片與時間連貫性高度相關(guān)。

許多公司會限制生成視頻的長度,因為他們不能確保幾分鐘后依然視頻保持一致性。

如果當(dāng)你看到一個超長的AI視頻,要知道它們是由一堆短片段組成的。

尚未解決的問題

視頻的ChatGPT時刻什么時候到來?

其實我們還有很長的路要走,需要回答以下幾個問題:

1 當(dāng)前的擴(kuò)散架構(gòu)是否適用于視頻?

今天的視頻模型是基于擴(kuò)散模型搭建的:它們基本原理是生成幀,并試圖在它們之間創(chuàng)建時間一致的動畫(有多種策略可以做到這一點(diǎn))。

他們對3D空間和對象應(yīng)該如何交互沒有內(nèi)在的理解,這解釋了warping / morphing。

2 優(yōu)質(zhì)訓(xùn)練數(shù)據(jù)從何而來?

與其他模態(tài)模型相比,訓(xùn)練視頻模型更難,這主要是因為視頻模型沒有那么多高質(zhì)量的訓(xùn)練數(shù)據(jù)可供學(xué)習(xí)。語言模型通常在公共數(shù)據(jù)集(如Common Crawl)上進(jìn)行訓(xùn)練,而圖像模型則在LAION和ImageNet等標(biāo)記數(shù)據(jù)集(文本-圖像對)上進(jìn)行訓(xùn)練。

視頻數(shù)據(jù)更難獲得。雖然在YouTube和TikTok等平臺上不乏公開可訪問的視頻,但這些視頻沒有標(biāo)簽,也不夠多樣化。

3 這些用例將如何在平臺/模型之間進(jìn)行細(xì)分?

我們在幾乎每一種內(nèi)容模態(tài)中看到的是,一種模型并不是對所有用例都「取勝」的。例如,MidTrik、Idegraph和Dall-E都有不同的風(fēng)格,并擅長生成不同類型的圖像。

如果你測試一下今天的文本到視頻和圖像到視頻模式,就會發(fā)現(xiàn)它們擅長不同的風(fēng)格、運(yùn)動類型和場景構(gòu)成。

誰將主導(dǎo)視頻制作的工作流程?

而在許多產(chǎn)品之間,來回是沒有意義的。

除了純粹的視頻生成,制作好的剪輯或電影通常需要編輯,特別是在當(dāng)前的范例中,許多創(chuàng)作者正在使用視頻模型來制作在另一個平臺上創(chuàng)建的照片的動畫。

從Midjourney的圖像開始,在Runway或Pika上制作動畫,然后在Topz上進(jìn)行升級的視頻并不少見。

然后,創(chuàng)作者將視頻帶到CapCut或Kapwing等編輯平臺,并添加配樂和畫外音,通常是在Suno和ElevenLabs等其他產(chǎn)品上生成的。





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1796

    文章

    47666

    瀏覽量

    240288
  • ChatGPT
    +關(guān)注

    關(guān)注

    29

    文章

    1568

    瀏覽量

    8060

原文標(biāo)題:AI視頻年大爆發(fā)!Gen-2/Pika成時代爆款,2023年AI視頻生成領(lǐng)域的現(xiàn)狀全盤點(diǎn)

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    OpenAI推出AI視頻生成模型Sora

    近日,備受期待的OpenAI再次推出了其創(chuàng)新之作——AI視頻生成模型Sora。這一新品的發(fā)布,無疑為AI技術(shù)注入了新的活力。 據(jù)悉,Sora與OpenAI旗下的AI工具DALL-E有著
    的頭像 發(fā)表于 12-12 09:40 ?250次閱讀

    字節(jié)跳動自研視頻生成模型Seaweed開放

    近日,字節(jié)跳動旗下的AI內(nèi)容平臺即夢AI傳來新消息,宣布自研的視頻生成模型Seaweed即日起正式面向平臺用戶開放使用。這一舉措標(biāo)志著字節(jié)跳動在AI
    的頭像 發(fā)表于 11-11 14:31 ?305次閱讀

    火山引擎推出豆包·視頻生成模型

    在近期舉辦的2024火山引擎AI創(chuàng)新巡展上,火山引擎總裁譚待隆重推出了豆包·視頻生成模型,這一舉措標(biāo)志著火山引擎在視頻內(nèi)容生成領(lǐng)域邁出了重要
    的頭像 發(fā)表于 09-25 14:11 ?368次閱讀

    MediaTek與快手?jǐn)y手創(chuàng)新,端側(cè)視頻生成技術(shù)引領(lǐng)AI新紀(jì)元

    在科技日新月異的今天,MediaTek與快手再次攜手,于近日宣布了一項重大技術(shù)突破——高效端側(cè)視頻生成技術(shù)的誕生。這項技術(shù)不僅是對即將于2024世界移動通信大會(MWC 2024)上亮相的先進(jìn)視頻生成技術(shù)的有力延續(xù),更是雙方在
    的頭像 發(fā)表于 07-05 11:52 ?1097次閱讀

    MediaTek聯(lián)合快手推出高效端側(cè)視頻生成技術(shù)

    MediaTek 與快手共同宣布,推出高效端側(cè)視頻生成技術(shù),共同探索并推進(jìn)生成AI 技術(shù)的革新。作為對 2024 世界移動通信大會(MWC 2024)上亮相的視頻生成技術(shù)的延續(xù),該
    的頭像 發(fā)表于 07-05 11:23 ?5855次閱讀

    Runway發(fā)布Gen-3 Alpha視頻生成模型

    專為電影和圖像內(nèi)容創(chuàng)作者提供生成AI工具的Runway公司近日宣布,其最新的Gen-3 Alpha視頻生成模型已經(jīng)正式問世。這款模型在多方面均取得了顯著的進(jìn)步,為創(chuàng)作者們帶來了前所未有的便利和可能性。
    的頭像 發(fā)表于 06-19 09:25 ?620次閱讀

    阿里云視頻生成技術(shù)創(chuàng)新!視頻生成使用了哪些AI技術(shù)和算法

    照片就能讓 EMO 合成演戲唱歌視頻。 ? 阿里云在視頻生成領(lǐng)域的創(chuàng)新 ? EMO(Emote Portrait Alive)是一個由阿里巴巴集團(tuán)智能計算研究院開發(fā)的框架,一個音頻驅(qū)動的 AI
    的頭像 發(fā)表于 05-08 00:07 ?3458次閱讀

    智譜AI正研發(fā)對標(biāo)Sora的國產(chǎn)文生視頻模型

    智譜AI,這家國內(nèi)估值超過200億的AI大模型獨(dú)角獸企業(yè),正全力投入研發(fā)一款與OpenAI的Sora相媲美的國產(chǎn)文生視頻模型。據(jù)公司內(nèi)部人士透露,該模型預(yù)計最快將在今年內(nèi)發(fā)布,將成為AI
    的頭像 發(fā)表于 05-07 09:22 ?561次閱讀

    新火種AI|圍攻光明頂:Sora效應(yīng)下的AI視頻生成競賽

    Sora的出現(xiàn),讓AI視頻生成領(lǐng)域真正“活”了起來
    的頭像 發(fā)表于 03-16 11:12 ?685次閱讀

    除了刷屏的Sora,國內(nèi)外還有哪些AI視頻生成工具

    。Sora的發(fā)布也讓AI生成視頻有了突破性進(jìn)展。 ? 過去一多,全球科技公司都在發(fā)布各種大模型,然而AI
    的頭像 發(fā)表于 02-26 08:42 ?4568次閱讀
    除了刷屏的Sora,國內(nèi)外還有哪些<b class='flag-5'>AI</b><b class='flag-5'>視頻生成</b>工具

    OpenAI 在 AI 生成視頻領(lǐng)域扔出一枚“王炸”,視頻生成模型“Sora”

    人工智能,根據(jù)書面命令立即創(chuàng)建短視頻。JAEALOT20242月16日2月16日凌晨,也就是中國大年初七,OpenAI在AI生成視頻
    的頭像 發(fā)表于 02-22 08:25 ?457次閱讀
    OpenAI 在 <b class='flag-5'>AI</b> <b class='flag-5'>生成</b><b class='flag-5'>視頻</b><b class='flag-5'>領(lǐng)域</b>扔出一枚“王炸”,<b class='flag-5'>視頻生成</b>模型“Sora”

    openai發(fā)布首個視頻生成模型sora

    美國當(dāng)?shù)貢r間20242月15日 ,OpenAI正式發(fā)布文生視頻模型Sora ,并發(fā)布了48個文生視頻案例和技術(shù)報告 ,正式入局視頻生成領(lǐng)域
    的頭像 發(fā)表于 02-21 16:45 ?1369次閱讀

    探索OpenAI Sora視頻AI生成技術(shù)及其應(yīng)用如何使用指南

    OpenAI的Sora現(xiàn)已擴(kuò)展其能力范圍,進(jìn)入視頻生成領(lǐng)域,標(biāo)志著人工智能技術(shù)在多媒體內(nèi)容創(chuàng)作上的一個重大突破。Sora的視頻AI功能使得用戶能夠根據(jù)文本描述自動
    的頭像 發(fā)表于 02-20 12:01 ?1505次閱讀

    OpenAI新年開出王炸,視頻生成模型Sora問世

    近日,OpenAI在AI生成視頻領(lǐng)域取得重大突破,發(fā)布了全新的生成式人工智能模型“Sora”。該模型在
    的頭像 發(fā)表于 02-20 11:46 ?852次閱讀

    OpenAI發(fā)布文生視頻模型Sora,引領(lǐng)AI視頻生成新紀(jì)元

    在人工智能(AI)領(lǐng)域掀起新一輪革命浪潮的,正是OpenAI最新推出的文生視頻大模型——Sora。這款被業(yè)界廣泛贊譽(yù)的模型,以其“逼真”和“富有想象力”的視頻生成能力,徹底顛覆了傳統(tǒng)
    的頭像 發(fā)表于 02-19 11:03 ?1020次閱讀
    主站蜘蛛池模板: 91伊人久久大香线蕉 | 日韩插插 | 日本黄色免费片 | 日本最顶级丰满的aⅴ艳星 日本最好的免费影院 | 激情狠狠干 | 亚洲成人www| 欧美成人精品久久精品 | 免费一级欧美片片线观看 | 日本一视频一区视频二区 | 天堂网 | 免费看黄的视频网站 | 久久婷婷成人综合色 | 精品国产麻豆免费人成网站 | 免费啪视频观在线视频在线 | 成年人电影黄色 | 一级特黄性生活大片免费观看 | 激情综合五月天丁香婷婷 | 性生大片一级毛片免费观看 | 三级网址在线播放 | 视频一区视频二区在线观看 | 男啪女r18肉车文 | 色猫av| tom影院亚洲国产一区二区 | 日本免费高清 | 午夜国产精品久久影院 | 久久久夜 | 91精品啪在线观看国产日本 | 天天操天天插天天射 | 激情com| 国产综合成色在线视频 | 51影院在线观看成人免费 | 黄h视频| 青青久操视频 | 午夜秒播| 欧美成人黄色 | 99色播| 69ww免费视频播放器 | 国产午夜精品理论片久久影视 | 久久精彩免费视频 | 精品午夜视频 | 青草91|