在視覺圖像設(shè)計(jì)中,用戶的需求與最終的設(shè)計(jì)成品往往是“想象很美好,現(xiàn)實(shí)很骨感”。這通常是因?yàn)橛脩粼谂c設(shè)計(jì)師溝通時(shí),雙方理解不一致,導(dǎo)致最終設(shè)計(jì)結(jié)果不盡如人意。但是,如果能夠“自給自足”,借助人工智能技術(shù)為每個(gè)人賦予設(shè)計(jì)能力,是否會(huì)更容易讓自己腦海中的畫面變?yōu)楝F(xiàn)實(shí)?智能化設(shè)計(jì)工具 Microsoft Designer 就是一個(gè)能輔助用戶成為設(shè)計(jì)師的好幫手。
2022年10月,微軟在 Ignite 大會(huì)上發(fā)布了 Microsoft Designer 內(nèi)測(cè)版,為 Microsoft 365 家族再添一個(gè)視覺生產(chǎn)力工具。2023年4月27日,經(jīng)過半年的迭代和改進(jìn),微軟宣布推出 Microsoft Designer 公開預(yù)覽版。利用人工智能技術(shù)“猜想”用戶的想法,智能輔助生成文字提示和視覺圖像,Microsoft Designer 大大降低了設(shè)計(jì)難度,讓人人都能成為視覺設(shè)計(jì)師。
如今,市場上充斥著各種各樣視覺的設(shè)計(jì)工具,然而這些專業(yè)軟件有很高的技術(shù)門檻且操作復(fù)雜,非專業(yè)人員難以熟練使用。也有一些工具提供了海量的模板庫,用戶可以基于模板進(jìn)行修改,雖然這簡化了部分操作,但其呈現(xiàn)效果與用戶的設(shè)想仍有不小的差距。Microsoft Designer 則能夠智能理解用戶的需求,自動(dòng)生成文字表述,實(shí)現(xiàn)從文字到視覺圖像的自動(dòng)化創(chuàng)造,并將這些素材用于設(shè)計(jì)項(xiàng)目。
作為智能化的設(shè)計(jì)工具,Microsoft Designer 將先進(jìn)的科研成果快速吸納并轉(zhuǎn)化為生產(chǎn)力,其中包括來自微軟亞洲研究院視覺計(jì)算組的 Provence、Swin Transformer 模型,自然語言計(jì)算組與微軟圖靈團(tuán)隊(duì)合作的圖靈通用語言表示模型,系統(tǒng)研究組的SPANN(存儲(chǔ)器-磁盤混合索引和搜索系統(tǒng))算法等眾多前沿技術(shù)。

厚積薄發(fā):Provence多模態(tài)內(nèi)容推薦模型助力實(shí)現(xiàn)“一鍵式”設(shè)計(jì)配圖
微軟亞洲研究院很早就開始研究通過自然語言生成圖像或視頻的技術(shù)。2018年,正值短視頻發(fā)展的上升時(shí)期,研究員們意識(shí)到視頻化的傳播形態(tài)將成為未來互聯(lián)網(wǎng)主要的溝通交流方式。然而視頻內(nèi)容的制作流程繁雜,高質(zhì)量視頻的拍攝更需要專業(yè)人員的參與,那么是否可以通過技術(shù)創(chuàng)新創(chuàng)造出一個(gè)簡化視頻制作和生成的工具?在這一目標(biāo)的驅(qū)動(dòng)下,視覺計(jì)算組開始了文字到圖像和視覺的生成技術(shù)的研究。
經(jīng)過一年多的潛心鉆研,2020年視覺計(jì)算組推出了第一代基于檢索的文字到視頻的生成模型 Provence(Retrieval-based text-to-video generation)。Provence 模型能夠根據(jù)文本描述搜索相匹配的視頻或圖像,同時(shí)確保跨模態(tài)對(duì)應(yīng)具有較高的準(zhǔn)確率,達(dá)到了“一鍵式(即檢索到的第一個(gè)圖像推薦就是用戶所需)”的水平。
Provence 模型的潛力很快就被微軟 Microsoft 365 產(chǎn)品部門發(fā)現(xiàn),并將其引入到了 PowerPoint Design Ideas(PowerPoint 設(shè)計(jì)器)功能中。為了更好地滿足產(chǎn)品端的工程化需求,微軟多個(gè)研究組的研究員們將 Provence 與 Swin Transformer、圖靈通用語言表示模型和 SPANN 算法結(jié)合,在 Design Ideas 功能的底層構(gòu)建了零樣本多模態(tài)的內(nèi)容檢索引擎,讓用戶在幾秒鐘內(nèi)就能通過文字自動(dòng)檢索出最適合于當(dāng)前幻燈片的配圖,并給出布局設(shè)計(jì)建議,良好的使用體驗(yàn)讓 Design Ideas 功能的用戶使用率提升了20%以上。
圖1:Provence 模型分別應(yīng)用于 PowerPoint Design Ideas,Microsoft Designer 及其生態(tài)系統(tǒng)中
2021年3月,在微軟內(nèi)部的駭客松(Hackathon)活動(dòng)期間,Microsoft 365 產(chǎn)品團(tuán)隊(duì)通過與研究員們的思想碰撞,更加深入地了解了機(jī)器學(xué)習(xí)領(lǐng)域的前沿技術(shù)趨勢(shì),不僅看到了走向成熟的 Provence 檢索技術(shù),也看到了更多創(chuàng)新的機(jī)器學(xué)習(xí)算法的應(yīng)用潛力。由此,雙方共同發(fā)起了 Designer in Edge 的 Hackathon 項(xiàng)目,此后這一項(xiàng)目進(jìn)入產(chǎn)品化迭代過程,也形成了如今的 Microsoft Designer 和 Designer Platform 這兩款由人工智能驅(qū)動(dòng)的產(chǎn)品。
微軟 Microsoft 365 產(chǎn)品部副總裁張大川表示,“在與微軟亞洲研究院多個(gè)研究組的交流中,我們看到了 Provence、Swin Transformer、圖靈通用語言表示模型等諸多超前的 AI 技術(shù)理念,這些前沿技術(shù)完全滿足 Microsoft Designer 及其生態(tài)系統(tǒng)的需求。雙方的緊密合作,不僅大大加速了產(chǎn)品的創(chuàng)新周期,而且還革新了傳統(tǒng)設(shè)計(jì)的流程。下一步,我們將共同致力于創(chuàng)新技術(shù)的落地應(yīng)用,為全球用戶提供更加便捷易用的視覺設(shè)計(jì)工具,更好地激發(fā)人們的創(chuàng)造力和創(chuàng)新力。”
“很高興看到微軟亞洲研究院越來越多的創(chuàng)新研究成果走向了實(shí)際應(yīng)用,成為支持產(chǎn)品開發(fā)的核心技術(shù)。以 Microsoft Designer 為例,它的關(guān)鍵技術(shù)始于研究院五年前的創(chuàng)新突破,正是因?yàn)槲④泚喼扪芯吭撼掷m(xù)致力于探索計(jì)算機(jī)領(lǐng)域前瞻性的基礎(chǔ)研究,才使得這種拿來即用的技術(shù)轉(zhuǎn)化成為可能。未來,微軟亞洲研究院將一如既往地著眼于下一代革命性技術(shù)的研究,并將科研成果快速轉(zhuǎn)化到微軟的產(chǎn)品中,賦能更多用戶。”微軟亞洲研究院常務(wù)副院長郭百寧表示。

Microsoft Designer:
從多模態(tài)推薦走向具有“創(chuàng)作”能力的AI
生成式視覺設(shè)計(jì)的一個(gè)關(guān)鍵環(huán)節(jié)是用語言或者文字將用戶腦海中想象的畫面清晰地表達(dá)出來。因此,微軟亞洲研究院視覺計(jì)算組的研究員們進(jìn)一步對(duì) Provence 模型進(jìn)行了升級(jí),讓 Microsoft Designer 在從文字描述中精準(zhǔn)檢索出用戶所需圖像的基礎(chǔ)上,又實(shí)現(xiàn)了根據(jù)用戶意圖智能輸出文字提示的功能。
其核心思想是基于學(xué)習(xí)到的自動(dòng)模板為不同的輸入文本創(chuàng)建不同的提示,具體包括三個(gè)步驟:
-
首先,將用戶原始輸入的文本與一組字符(token)結(jié)合,這些字符是對(duì)用戶所需要的設(shè)計(jì)圖像的視角、樣式、氛圍、用途等的描述。
-
然后,根據(jù)美術(shù)設(shè)計(jì)的評(píng)分,使用學(xué)習(xí)到的自動(dòng)模板找到與不同字符匹配的最佳組合。
-
最后,將輸入文本和自動(dòng)模板提示的組合返回給用戶,并使用評(píng)分指標(biāo)對(duì)結(jié)果進(jìn)行排序,再從中檢索出最佳的圖像。
智能輸出提示文字,為用戶原始的輸入文本添加了更多的描述和細(xì)節(jié),從而激勵(lì)視覺模型“創(chuàng)作”出更符合用戶需求的結(jié)果。如圖2所示:用戶輸入“a cat hacker wearing a VR headset”后,Microsoft Designer 自動(dòng)輸出了相關(guān)的提示與圖像。
圖2:智能輸出提示文字的流程
另外,研究員們還提出了一種檢索增強(qiáng)提示的推薦方法,通過使用提示數(shù)據(jù)庫來增強(qiáng)自動(dòng)提示的結(jié)果。隨著用戶對(duì) Microsoft Designer 的頻繁使用,模型會(huì)學(xué)習(xí)到更多的提示,而這些數(shù)據(jù)將能進(jìn)一步提高提示質(zhì)量。如圖3所示,對(duì)于用戶輸入,Microsoft Designer 會(huì)先使用語言模型從提示數(shù)據(jù)庫中檢索最相似的提示文本,然后通過評(píng)估分?jǐn)?shù)對(duì)檢索結(jié)果排序,再將自動(dòng)提示與排序檢索提示結(jié)合,以獲得更好的結(jié)果。由于模型具有持續(xù)學(xué)習(xí)的特性,最終將有越來越多的用戶數(shù)據(jù)納入到提示數(shù)據(jù)庫中來增強(qiáng)提示。
圖3:檢索增強(qiáng)提示
借助智能輸出文字提示和智能圖像生成的雙重加持,用戶可以更好地用文字描述出腦海中的畫面,讓 Microsoft Designer “創(chuàng)作”更符合需求的視覺圖像,并從推薦的圖像中選擇出最匹配需求的用于后續(xù)的定制化設(shè)計(jì)。
由人工智能技術(shù)驅(qū)動(dòng)的 Microsoft Designer 極大地降低了設(shè)計(jì)工作的專業(yè)門檻,讓設(shè)計(jì)更加大眾化,人人都能成為設(shè)計(jì)師。未來,Microsoft Designer 還將引入更多的人工智能算法,比如個(gè)性化的智能修圖、借助大模型實(shí)現(xiàn)平面布局等等,以此豐富 Microsoft Designer 的功能,為更多用戶帶來更高水平的創(chuàng)意和創(chuàng)造力生產(chǎn)工具。
點(diǎn)擊“閱讀原文”即可試用 Microsoft Designer,開啟屬于你的 AI 設(shè)計(jì)之旅吧!
隨著人工智能技術(shù)的快速發(fā)展,確保相關(guān)技術(shù)能被人們信賴是一個(gè)需要攻堅(jiān)的問題。微軟主動(dòng)采取了一系列措施來預(yù)判和降低人工智能技術(shù)所帶來的風(fēng)險(xiǎn)。微軟致力于依照以人為本的倫理原則推進(jìn)人工智能的發(fā)展,早在2018年就發(fā)布了“公平、包容、可靠與安全、透明、隱私與保障、負(fù)責(zé)”六個(gè)負(fù)責(zé)任的人工智能原則(Responsible AI Principles),隨后又發(fā)布了負(fù)責(zé)任的人工智能標(biāo)準(zhǔn)(Responsible AI Standards)將各項(xiàng)原則實(shí)施落地,并設(shè)置了治理架構(gòu)確保各團(tuán)隊(duì)把各項(xiàng)原則和標(biāo)準(zhǔn)落實(shí)到日常工作中。微軟也持續(xù)與全球的研究人員和學(xué)術(shù)機(jī)構(gòu)合作,不斷推進(jìn)負(fù)責(zé)任的人工智能的實(shí)踐和技術(shù)。
相關(guān)論文鏈接:
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
https://arxiv.org/abs/2103.14030
SPANN: Highly-efficient Billion-scale Approximate Nearest Neighbor Search
https://arxiv.org/abs/2111.08566
BEiT: BERT Pre-Training of Image Transformers
https://openreview.net/forum?id=p-BhZSz59o4
關(guān)注微軟科技視頻號(hào)
了解更多科技前沿資訊
-
微軟
+關(guān)注
關(guān)注
4文章
6678瀏覽量
105561
原文標(biāo)題:隱藏在Microsoft Designer背后的新科技,讓人人都是設(shè)計(jì)師
文章出處:【微信號(hào):mstech2014,微信公眾號(hào):微軟科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
燧弘華創(chuàng)亮相2025聯(lián)想創(chuàng)新科技大會(huì)
長安汽車榮獲最佳創(chuàng)新科技展臺(tái)獎(jiǎng)
格陸博科技榮登蓋世汽車新科技創(chuàng)新榜單
2025年聯(lián)想創(chuàng)新科技大會(huì)即將開幕
創(chuàng)維集團(tuán)舉辦2025年全品類客戶大會(huì)暨創(chuàng)新科技展
奧迪威獲頒“創(chuàng)新科技行業(yè)標(biāo)桿”稱號(hào),以創(chuàng)新驅(qū)動(dòng)區(qū)域高質(zhì)量發(fā)展

革新科技!通過EtherCAT與Profinet網(wǎng)關(guān)實(shí)現(xiàn)溫濕度監(jiān)控,醫(yī)藥設(shè)備領(lǐng)域的智能革命來臨!

行芯科技出席杭州民營創(chuàng)新科技企業(yè)代表早餐會(huì)
比亞迪亮相《中國創(chuàng)新科技盛典》
德新科技投資1億元建設(shè)高端精密減速電機(jī)項(xiàng)目
MathWorks攜手IBMD與遠(yuǎn)諾,助力高新科技初創(chuàng)企業(yè)發(fā)展
智能傳感創(chuàng)造汽車新科技 | 奧迪威以創(chuàng)新科技引領(lǐng)馬來西亞汽配及摩配展覽會(huì)

創(chuàng)新科技,智能溫控電吹風(fēng) —— Bestow Mascot? 非接觸式測(cè)溫模塊

螞蟻集團(tuán)創(chuàng)新科技總部落地北京,螞蟻T空間啟用
創(chuàng)新科技,精準(zhǔn)導(dǎo)航:大核桃單北斗手持終端的獨(dú)特優(yōu)勢(shì)與多樣化應(yīng)用場景

評(píng)論