以下文章來源于谷歌云服務(wù),作者 Google Cloud
Katie Nguyen
我們在Vertex AI上推出新一代生成式 AI 媒體模型: Imagen 4、Veo 3 和 Lyria 2。
我們已經(jīng)看到有客戶使用 Imagen 3 (Google 的圖像生成模型) 生成出令人驚艷、栩栩如生的圖像。并通過 Veo 2 將這些圖像轉(zhuǎn)化為高質(zhì)量的視頻和素材。我們甚至看到客戶將這些引人注目的視頻,通過 Lyria (Google 先進的 AI 音樂生成模型) 生成專業(yè)級音頻,賦予其生命力。
隨著生成式 AI 媒體在市場營銷、媒體等領(lǐng)域的廣泛應(yīng)用,講述故事變得前所未有的簡單。用戶可以更快地創(chuàng)建廣告素材,并打造突破性的創(chuàng)意內(nèi)容。接下來,讓我們來了解一下每個模型,并指導(dǎo)您如何立即開始使用。
Imagen 4: 更高質(zhì)量的圖像生成
我們宣布 Imagen 4 文本轉(zhuǎn)圖像生成功能在 Vertex AI 上推出公開預(yù)覽版。作為 Google 最高質(zhì)量的圖像生成模型,Imagen 4 提供以下功能:
●出色的文本渲染和提示詞遵循性
●在所有風(fēng)格下都能實現(xiàn)更高的整體圖像質(zhì)量
●支持多語言的提示詞,助力全球創(chuàng)作者
提示詞:捕捉一個親密的特寫鏡頭,沐浴在溫暖柔和的午后陽光中,陽光透過窗戶灑入一間典型的 1960 年代廚房。焦點是一個迷人設(shè)計的全能面粉復(fù)古包裝,愜意地擺放在帶有斑點的防火板 (Formica) 臺面上。包裝本身喚起了純粹的懷舊感: 也許是厚厚的、略有質(zhì)感的暖奶油色紙張,上面裝飾著簡單粗獷的排版 (友好的襯線字體或手寫字體) 以經(jīng)典的紅色和藍色標(biāo)示 "ALL-PURPOSE FLOUR (通用面粉)",并且配有一個美麗的插圖,比如風(fēng)格化的小麥穗或一個愉快的面包師形象。包裝底部用較小的粗體字打印著:"凈重 5 磅 (80 盎司) 2.27 公斤"。清晰對焦于包裝的細節(jié)——紙袋略顯柔和的邊緣、復(fù)古印刷的質(zhì)感、以及引人注目的 "通用面粉" 字樣。1960 年代廚房的微妙元素構(gòu)成了畫面的背景——臺面的鍍鉻邊緣柔和地閃著光,模糊中可以看到淡黃色瓷磚的墻面,或者一個略微失焦的復(fù)古金屬罐的一角。淺景深讓注意力鎖定在設(shè)計精美的包裝上,營造出一種充滿溫暖、真實和懷舊魅力的美感。
提示詞:這部四格漫畫采用了一種迷人的、刻意像素化的藝術(shù)風(fēng)格,讓人聯(lián)想起經(jīng)典的 8 位電子游戲,以簡單的形狀和有限而明亮的調(diào)色板為主,主要以綠色、藍色、棕色和恐龍標(biāo)志性的灰黑色為主,場景設(shè)定在一個風(fēng)格化的像素海灘。第一格展示了我們熟悉的谷歌瀏覽器小恐龍 (T-Rex),它有著標(biāo)志性的像素化外形,戴著小小的像素太陽鏡,躺在像素化的沙灘巾上,沐浴在塊狀的黃色陽光下。背景中,像素化的棕櫚樹在藍色像素天空的映襯下輕輕搖曳。一個帶有像素化字體的標(biāo)題框?qū)懼?"Even error messages need a vacation.(就算是錯誤信息也需要放個假)" 第二格是小恐龍正試圖建造一座像素沙堡的特寫。它笨拙地用它小小的像素化的手臂拍打著一堆棕色像素塊,一副專注的樣子。周圍的沙灘上點綴著一些小小的像素化貝殼。第三格描繪了小恐龍歡快地跳過海灘附近種植的一系列像素化仙人掌,模擬它在游戲中的避障動作。每次跳躍上方都會出現(xiàn) "Boing!Boing!(蹦!蹦!)" 的短促音效文字,并以塊狀字體顯示。一只像素化的螃蟹在一旁注視著,揮舞著它的像素蟹鉗。最后一格描繪了小恐龍平靜地仰面漂浮在塊狀藍色像素水中,墨鏡依然戴著,表情滿足。上方有一個小小的思維泡泡,里面是像素化的 "Zzz……",表示它正在放松。
提示詞:以電影般的鏡頭從駕駛座拍攝,清晰地展現(xiàn)前排乘客座位上那位有著醒目紅發(fā)的年輕乘客的側(cè)面輪廓。她目光凝視前方,專注于觀察著透過側(cè)窗可見的塵土飛揚、孤寂的公路。側(cè)窗模糊映照著一片廣闊干涸的干地,或許還有遠處朦朧的群山。她的手臂搭在窗臺或方向盤上。鏡頭中還捕捉到了她身旁那輛老舊卡車內(nèi)飾的一部分——車門面板,或許還有一絲磨損的座椅面料。光線可能是午后的陽光,在她臉上和卡車內(nèi)部投下長長的陰影和溫暖的高光。這個角度凸顯了她在廣闊空曠的景色中獨自的存在和沉思的狀態(tài)。
要在 Vertex AI 上開始訪問處于公開預(yù)覽階段的 Imagen 4,您可以使用 Media Studio 或運行以下代碼示例,該示例使用適用于 Python 的 Google Gen AI SDK。
fromgoogleimportgenai # TODO(developer): Update and un-comment below lines # project_id = "PROJECT_ID" client = genai.Client(vertexai=True, project=project_id, location="us-central1") prompt =""" A white wall with two Art Deco travel posters mounted. First poster has the text: "NEPTUNE", tagline: "The jewel of the solar system!' Second poster has the text: "JUPITER", tagline: "Travel with the giants! """ image = client.models.generate_images( model="imagen-4.0-generate-preview-05-20", prompt=prompt, ) # OPTIONAL: View the generated image in a notebook # image.generated_images[0].image.show()
Veo 3: 生成有音頻和語音的高質(zhì)量視頻
Veo 3 是我們最新推出的、來自 Google DeepMind 的先進視頻生成模型。借助 Veo 3,您可以生成以下類型的視頻:
●從文本和圖像提示詞生成視頻時,質(zhì)量得到提升
●語音,例如對話和旁白
●音頻,例如音樂和音效
以下是一些客戶對 Veo 帶來的生產(chǎn)力和創(chuàng)造力提升的評價:
數(shù)字支付領(lǐng)域的領(lǐng)導(dǎo)者Klarna正在利用 Vertex AI 上的 Veo 和 Imagen 來提升內(nèi)容創(chuàng)作效率。從B-roll (補充鏡頭) 到 YouTube 視頻的片頭片尾,該公司正在顯著縮短制作周期。
"在 Klarna,我們不斷探索突破營銷創(chuàng)新界限的方法,而 Veo 徹底改變了我們的創(chuàng)意工作流程。借助 Veo 和 Imagen,過去耗時耗力的制作流程轉(zhuǎn)變成了快速高效的任務(wù),使我們能夠快速擴展內(nèi)容創(chuàng)作規(guī)模。無論是制作吸引人的 B-roll、打造引人注目的 YouTube 片頭,還是開發(fā)生動的社交媒體動畫,這些工具都讓我們的團隊更加靈活和富有創(chuàng)造力。結(jié)果顯而易見,它們帶來了更高的參與度和內(nèi)容表現(xiàn)。借助 Google Cloud,我們正在為未來的業(yè)務(wù)發(fā)展奠定基礎(chǔ),并徹底改變我們品牌煥發(fā)生機的方式。"—— Klarna 首席營銷官 David Sandstr?m
Jellyfish是 Brandtech 集團旗下一家知名的數(shù)字營銷公司,已將 Veo 集成到其性能卓越的 AI 營銷平臺 Pencil 中,并與日本航空合作,提供 AI 生成的機上娛樂服務(wù)。
"Veo 2 與 Pencil 的結(jié)合,進一步強化了我們致力于賦能市場營銷人員的承諾。利用先進的 AI,使他們能夠制作出不僅更智能、更快速,同時也更大膽、更富藝術(shù)靈感的營銷活動。我們的試點項目取得了令人矚目的成果,成本和產(chǎn)品上市時間平均降低了 50%。這種在控制和質(zhì)量上的重大改進,能夠在幾分鐘內(nèi)將之前不可能實現(xiàn)的創(chuàng)意轉(zhuǎn)化為真實的營銷內(nèi)容。日本航空公司 (Japan Airlines) 在將生成式 AI 應(yīng)用于旅游行業(yè)方面處于領(lǐng)先地位,我們期待看到其他品牌效仿。"—— Brandtech 創(chuàng)始人兼首席執(zhí)行官 David Jones
卡夫亨氏 (Kraft Heinz)的 Tastemaker 平臺使其團隊能夠訪問 Imagen 和 Veo,從而顯著加快創(chuàng)意和營銷活動的開發(fā)流程。
"使用 Vertex AI 上的 Veo 和 Imagen 作為我們 Tastemaker 平臺的一部分,卡夫亨氏的創(chuàng)意工作流程實現(xiàn)了前所未有的速度和效率。以前需要八周才能完成的工作現(xiàn)在只需八小時,從而大幅節(jié)省了成本。"——數(shù)字體驗與增長主管 Justin Thomas
Envato是全球領(lǐng)先的數(shù)字創(chuàng)意資源和模板提供商,該公司使用 Veo 2 開發(fā)了其最新推出的視頻生成功能 VideoGen,旨在幫助創(chuàng)意專業(yè)人士將文本或圖像轉(zhuǎn)換為超逼真和電影般的視頻內(nèi)容。
"我們嘗試過許多頂級的視頻模型,而 Veo 2 在處理各種文本和圖像輸入時,在速度和質(zhì)量方面都取得了令人印象深刻的效果。在推出后的最初幾天內(nèi),就有數(shù)萬名 Envato 訂閱用戶訪問了 VideoGen,他們生成的視頻中近 60% 被下載用于創(chuàng)意項目。自 3 月份以來,Envato 的 VideoGen 使用量逐月增長超過 100%。與 Google Cloud 合作,通過 Veo 將 Envato 的 VideoGen 功能變?yōu)楝F(xiàn)實,這令人非常愉快。"——Envato AI 產(chǎn)品負責(zé)人 Aaron Rutley
了解其工作方式:Veo 3 能夠處理復(fù)雜的提示詞細節(jié),如以下示例所示。
提示詞:中景鏡頭,歷史冒險場景:溫暖的燈光照亮了一位制圖師,他正坐在雜亂的書房里,仔細端詳著一張攤在大桌子上的古老而雜亂的地圖。制圖師:"根據(jù)這張古老的海圖,那座失落的島嶼并非神話!我們必須立即準(zhǔn)備一次探險!"
提示詞:低角度鏡頭展示了一扇敞開的淡紫色大門,從一間有著淺紫色墻壁和灰色地板的房間通向一個生機勃勃的戶外場景。茂盛的綠草和野花從門口蔓延到室內(nèi)地板,在空間之間營造出一種奇妙的過渡。門外,連綿起伏的綠色山丘上點綴著更多的野花,綿延至明亮清澈的天空。一棵樹矗立在戶外場景的前景中,它的葉子為視野增添了深度。陽光和自然元素與室內(nèi)空間的簡約形成對比,引人產(chǎn)生奇妙和想要逃離的感覺。
Veo 3 目前在 Vertex AI 上提供私有預(yù)覽版,并將在未來幾周內(nèi)更廣泛地推出。
Lyria 2: 通過音樂生成實現(xiàn)更強大的創(chuàng)意控制
在 Google Cloud Next 2025 大會上,我們宣布了在 Vertex AI 中推出 Google 的文本轉(zhuǎn)音樂模型 Lyria。我們宣布 Lyria 2 已在 Vertex AI 中正式發(fā)布。作為 Google 最新的音樂生成模型,Lyria 2 能夠生成多種風(fēng)格的高保真音樂。作為您下一個創(chuàng)意合作伙伴,Lyria 2 提供以下功能:
●從文本提示詞生成高品質(zhì)音頻內(nèi)容
●更好地控制樂器、BPM 和其他特征進行更強的創(chuàng)意控制
要開始使用 Lyria 2 創(chuàng)建內(nèi)容,請查看 Vertex AI 上的 Media Studio。之后,您可以根據(jù)文本提示詞生成音樂,或通過 Vertex AI 訪問模型 API。想要獲取靈感,請查看下面的一些音樂片段和提示詞。
提示詞:節(jié)奏明快、充滿迷幻色彩的秘魯坎比亞音樂 (Peruvian Cumbia),用于洛杉磯拉丁音樂節(jié)現(xiàn)場演出。融合電吉他、貝斯,并突出使用定音鼓打擊樂部分,營造出強勁有力、適合跳舞的氛圍。充滿活力和能量。
提示詞:氣勢恢宏的管弦樂電影配樂,倫敦原生錄音室錄制,百人管弦樂隊演繹,音樂風(fēng)格氣勢恢宏,深邃。融合高亢的旋律、戲劇性的和聲變化以及強勁的打擊樂元素,樂器包括圓號、弦樂、定音鼓。并以主題性手法演繹,具有復(fù)雜的編曲、寬廣的動態(tài)范圍和深刻的情感,營造出電影般恢弘且令人敬畏的氛圍。
看看我們的一些客戶到目前為止對 Lyria 2 的評價:
Captions是一款 AI 驅(qū)動的視頻創(chuàng)作工具,可幫助用戶快速輕松地創(chuàng)建工作室級別的有聲視頻。他們已將 Lyria 2 集成到 Mirage Edit 功能中,使用戶能夠快速生成帶有自定義聲音的完整視頻。
"在 Captions,我們的 Mirage Edit 功能已經(jīng)讓訂閱用戶能夠通過提示詞便可生成經(jīng)過完整編輯的 AI 有聲視頻,包括圖像、B-roll (補充) 片段、旁白和過渡效果。現(xiàn)在,我們又添加了一個關(guān)鍵元素: 由 Google Lyria 2 提供支持的自適應(yīng)音樂。只需一個提示詞,Lyria 就能創(chuàng)作出與劇本、節(jié)奏和每個情緒節(jié)點的轉(zhuǎn)場同步的配樂,這樣我們的客戶無需離開 Captions 或翻閱素材庫,即可發(fā)布電影級短視頻。"——Captions.ai 的聯(lián)合創(chuàng)始人兼首席運營官 Dwight Churchill
Dashverse擁有 Dashtoon 和 DashReels 等數(shù)字內(nèi)容平臺,目前正在 Vertex AI 上利用 Google 的 Lyria 2,為下一代 AI 原生創(chuàng)作者提供先進的音樂生成功能。這種集成使用戶能夠創(chuàng)作動感十足、情感豐富的配樂,并與 DashReels 等平臺上的內(nèi)容敘事和節(jié)奏無縫銜接。
"在 Dashverse,我們始終致力于賦能日常創(chuàng)作者,無論他們是在 Dashtoon 上創(chuàng)作漫畫,還還是在 DashReels 上制作短劇。我們通過 DashReels 向動態(tài)的、情感共鳴的敘事方式邁進,這需要一個同樣富有表現(xiàn)力和響應(yīng)能力的音樂引擎。Vertex AI 上的 Lyria 2 正好滿足了這一點。它為我們的用戶提供了對音樂的錄音室級別控制,能夠適應(yīng)情感、場景和節(jié)奏,而且沒有額外的開銷。它不僅僅是一個音軌生成器;它更是一個敘事放大器。我們非常期待它能為下一代 AI 原生創(chuàng)作者解鎖無限可能。"——Dashverse 首席技術(shù)官Soumyadeep Mukherjee
安全創(chuàng)作,負責(zé)任分享
任何 AI 生成內(nèi)容的安全性和可靠性都至關(guān)重要。因此,這些模型都內(nèi)置了安全保護措施,讓您能夠?qū)W⒂趧?chuàng)意工作。Veo 3、Imagen 4 和 Lyria 2 都與 Google DeepMind 合作,將安全性作為其核心設(shè)計原則。
水印:所有使用 Veo、Imagen 和 Lyria 生成的作品默認都使用 SynthID 技術(shù),該技術(shù)將隱形水印直接嵌入到生成的輸出中。此水印可以識別 AI 生成的媒體,確保透明度。
安全過濾器:所有生成式 AI 媒體模型的輸入提示詞和輸出內(nèi)容都可以通過安全過濾器列表進行訪問。通過配置內(nèi)容過濾的嚴格程度,您可以確保資產(chǎn)符合您的品牌價值觀。在視覺輸出數(shù)據(jù)中,您還可以控制人物的生成。
-
谷歌
+關(guān)注
關(guān)注
27文章
6228瀏覽量
107755 -
AI
+關(guān)注
關(guān)注
88文章
34592瀏覽量
276312 -
模型
+關(guān)注
關(guān)注
1文章
3500瀏覽量
50144
原文標(biāo)題:通過下一波生成式 AI 媒體模型擴展 Vertex AI
文章出處:【微信號:Google_Developers,微信公眾號:谷歌開發(fā)者】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
評論