在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

SOTA生成式模型:9大類別21個模型合集

jf_78858299 ? 來源:深度學習自然語言處理 ? 作者:深度學習自然語言 ? 2023-02-23 11:22 ? 次閱讀

過去的兩年時間里,AI界的大型生成模型發布呈井噴之勢,尤其是Stable Diffusion開源和ChatGPT開放接口后,更加激發了業界對生成式模型的熱情。

但生成式模型種類繁多,發布速度也非常快,稍不留神就有可能錯過了sota

最近,來自西班牙科米利亞斯主教大學的研究人員全面回顧了各個領域內AI的最新進展,將生成式模型按照任務模態、領域分為了九大類,并總結了2022年發布的21個生成式模型,一次看明白生成式模型的發展脈絡!

生成式AI分類

模型可以按照輸入和輸出的數據類型進行分類,目前主要包括9類。

有趣的是,在這些已發布大模型的背后,只有六個組織(OpenAI, Google, DeepMind, Meta, runway, Nvidia)參與部署了這些最先進的模型。

其主要原因是,為了能夠估計這些模型的參數,必須擁有極其龐大的計算能力,以及在數據科學和數據工程方面高度熟練且經驗豐富的團隊。

因此,也只有這些公司,在收購的初創公司和與學術界合作的幫助下,能夠成功部署生成式人工智能模型。

在大公司參與初創企業方面,可以看到微軟向OpenAI投資了10億美元,并幫助他們開發模型;同樣,谷歌在2014年收購了Deepmind。

在大學方面,VisualGPT是由阿卜杜拉國王科技大學(KAUST)、卡內基梅隆大學和南洋理工大學開發的,Human Motion Diffusion模型是由以色列特拉維夫大學開發的。

同樣,其他項目也是由一家公司與一所大學合作開發的,比如Stable Diffusion由Runway、Stability AI和慕尼黑大學合作開發;Soundify由Runway和卡內基梅隆大學合作開發;DreamFusion由谷歌和加州大學伯克利分校合作。

Text-to-image模型

DALL-E 2

由OpenAI開發的DALL-E 2能夠從由文本描述組成的提示中生成原始、真實、逼真的圖像和藝術,而且OpenAI已經對外提供了API來訪問該模型。

DALL-E 2特別之處在于它能夠將概念、屬性和不同風格結合起來,其能力源于語言-圖像預訓練模型CLIP神經網絡,從而可以用自然語言來指示最相關的文本片段。

具體來說,CLIP embedding有幾個理想的屬性:能夠對圖像分布進行穩定的轉換;具有強大的zero-shot能力;并且在微調后實現了最先進的結果。

為了獲得一個完整的圖像生成模型,CLIP圖像embedding解碼器模塊與一個先驗模型相結合,從一個給定的文本標題中生成相關CLIP圖像embedding

其他的模型還包括Imagen,Stable Diffusion,Muse

Text-to-3D模型

對于某些行業,僅能生成2D圖像還無法完成自動化,比如游戲領域就需要生成3D模型。

Dreamfusion

DreamFusion由Google Research開發,使用預先訓練好的2D文本到圖像的擴散模型來進行文本到3D的合成。

Dreamfusion使用一個從二維擴散模型的蒸餾中得到的損失取代了CLIP技術,即擴散模型可以作為一個通用的連續優化問題中的損失來生成樣本。

相比其他方法主要是對像素進行采樣,在參數空間的采樣比在像素空間的采樣要難得多,DreamFusion使用了一個可微的生成器,專注于創建從隨機角度渲染圖像的三維模型。

其他模型如Magic3D由英偉達公司開發。

Image-to-Text模型

獲得一個描述圖像的文本也是很有用的,相當于圖像生成的逆版本。

Flamingo

該模型由Deepmind開發,在開放式的視覺語言任務上,只需通過一些輸入/輸出例子的提示,即可進行few-shot學習。

具體來說,Flamingo的輸入包含視覺條件下的自回歸文本生成模型,能夠接收與圖像或視頻交錯的文本token序列,并生成文本作為輸出。

用戶可以向模型輸入query,并附上一張照片或一段視頻,模型就會用文本答案來回答。

Flamingo模型利用了兩個互補的模型:一個是分析視覺場景的視覺模型,一個是執行基本推理形式的大型語言模型。

VisualGPT

VisualGPT是一個由OpenAI開發的圖像描述模型,能夠利用預訓練語言模型GPT-2中的知識。

為了彌合不同模態之間的語義差距,研究人員設計了一個全新的編碼器-解碼器注意力機制,具有整流門控功能。

VisualGPT最大的優點是它不需要像其他圖像到文本模型那樣多的數據,能夠提高圖像描述模型的數據效率,能夠在小眾領域得到應用或對少見的物體的進行描述。

Text-to-Video模型

Phenaki

該模型由Google Research開發制作,可以在給定一連串文字提示的情況下,進行真實的視頻合成。

Phenaki是第一個能夠從開放域時間變量提示中生成視頻的模型。

為了解決數據問題,研究人員在一個大型的圖像-文本對數據集以及數量較少的視頻-文本例子上進行聯合訓練,最終獲得了超越視頻數據集中的泛化能力。

主要是圖像-文本數據集往往有數十億的輸入數據,而文本-視頻數據集則小得多,并且對不同長度的視頻進行計算也是一個難題。

Phenaki模型包含三個部分:C-ViViT編碼器、訓練Transformer和視頻生成器。

將輸入token轉換為embedding后,接著經過時序Transformer和空間Transformer,再使用一個沒有激活的單一線性投影,將token映射回像素空間。

最終模型可以生成以開放域提示為條件的時間連貫性和多樣性的視頻,甚至能夠處理一些數據集中不存在的新概念。

相關模型包括Soundify.

Text-to-Audio模型

對于視頻生成來說,聲音也是必不可缺的部分。

AudioLM

該模型是由谷歌開發,可用于生成高質量的音頻,并具有長距離一致性。

AudioLM的特別之處在于將輸入的音頻映射成一個離散的token序列,并將音頻生成作為該表示空間的語言建模任務。

通過對原始音頻波形的大型語料庫進行訓練,AudioLM成功學會了在簡短的提示下生成自然和連貫的連續的語音。這種方法甚至可以擴展到人聲之外的語音,比如連續的鋼琴音樂等等,而不需要在訓練時添加符號表示。

由于音頻信號涉及多個尺度(scale)的抽象,所以音頻合成時使得多尺度在顯示一致性的同時實現高音頻質量非常具有挑戰性。AudioLM模型通過結合神經音頻壓縮、自監督表示學習和語言建模方面的最新進展來實現。

在主觀評價方面,評分者被要求聽一個10秒的樣本,并決定它是人類講話還是合成的語音。基于收集到的1000個評分,比率為51.2%,與隨機分配標簽沒有統計學差異,即人類無法區分合成和真實的樣本。

其他相關模型包括Jukebox和Whisper

Text-to-Text模型

問答任務常用。

ChatGPT

廣受歡迎的ChatGPT由OpenAI開發,以對話的方式與用戶進行互動。

用戶提出一個問題,或是提示文本的前半部分,模型會補全后續部分,并且能夠識別出不正確的輸入前提并拒絕不恰當的請求。

具體來說,ChatGPT背后的算法是Transformer,訓練過程主要是人類反饋的強化學習。

最初的模型是使用監督學習下的微調來訓練的,然后由人類來提供對話,在對話中他們互相扮演用戶和人工智能助理,然后由人修正模型返回的回復,并用正確的答案幫助模型改進。

將制作的數據集與InstructGPT的數據集混合在一起,轉換為對話格式。

其他相關模型包括LaMDA和PEER

Text-to-Code模型

和text-to-text類似,只不過生成的是特殊類型的文本,即代碼。

Codex

該模型由OpenAI開發,可以將文本翻譯成代碼。

Codex是一種通用的編程模型,基本上可以應用于任何編程任務。

人類在編程時的活動可以分為兩部分:1)將一個問題分解成更簡單的問題;2)將這些問題映射到已經存在的現有代碼(庫、API或函數)中。

其中第二部分是對程序員來說最浪費時間的部分,也是Codex最擅長的地方。

訓練數據于2020年5月從GitHub上托管的公共軟件庫中進行收集,包含179GB的Python文件,并在GPT-3的基礎上進行微調,其中已經包含了強大的自然語言表征。

相關模型還包括Alphacode

Text-to-Science模型

科研文字也是AI文本生成的目標之一,但要取得成果仍然有很長的路要走。

Galactica

該模型是由Meta AI和Papers with Code聯合開發的,可用于自動組織科學文本的大型模型。

Galactica的主要優勢在于即便進行多個episode的訓練后,模型仍然不會過擬合,并且上游和下游的性能會隨著token的重復使用而提高。

并且數據集的設計對該方法至關重要,因為所有的數據都是以通用的markdown格式處理的,從而能夠混合不同來源的知識。

引文(citations)通過一個特定的token來處理,使得研究人員可以在任何輸入上下文中預測一個引文。Galactica模型預測引文的能力會隨著規模的提升而提高。

此外,該模型在僅有解碼器的設置中使用了一個Transformer架構,對所有尺寸的模型進行了GeLU激活,從而可以執行涉及SMILES化學公式和蛋白質序列的多模態任務,

Minerva

Minerva的主要目的就是解決決數學和科學問題,為此收集了大量的訓練數據,并解決了定量推理問題,大規模模型開發問題,還采用了一流的推理技術。

Minerva采樣語言模型架構通過使用step-by-step推理來解決輸入的問題,即輸入是需要包含計算和符號操作,而不用引入外部工具。

其他模型

還有一些模型不屬于前面提到的類別。

AlphaTensor

由Deepmind公司開發,因其發現新算法的能力,在業界是一個完全革命性的模型。

在已公布的例子中,AlphaTensor創造了一種更有效的矩陣乘法算法。這種算法非常重要,從神經網絡到科學計算程序都可以從這種高效率的乘法計算中受益。

該方法基于深度強化學習方法,其中智能體AlphaTensor的訓練過程就是玩一個單人游戲,目標是在有限的因子空間內尋找張量分解。

在TensorGame的每一步,玩家需要選擇如何結合矩陣的不同entries來進行乘法,并根據達到正確的乘法結果所需的操作數量來獲得獎勵分數。AlphaTensor使用一種特殊的神經網絡架構來利用合成訓練游戲(synthetic training game)的對稱性。

GATO

該模型是由Deepmind開發的通用智能體,它可以作為一個多模態、多任務或多embodiment泛化策略來使用。

具有相同權重的同一個網絡可以承載非常不同的能力,從玩雅達利游戲、描述圖片、聊天、堆積木等等。

在所有任務中使用單一的神經序列模型有很多好處,減少了手工制作具有自身歸納偏見策略模型的需要,并增加了訓練數據的數量和多樣性。

這種通用智能體在大量任務中都取得了成功,并且可以用很少的額外數據進行調整,以便在更多的任務中取得成功。

目前GATO大約有1.2B個參數,可以實時控制現實世界機器人的模型規模。

其他已發表的生成性人工智能模型包括生成human motion等。

參考資料

https://arxiv.org/abs/2301.04655

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    31834

    瀏覽量

    270609
  • 開源
    +關注

    關注

    3

    文章

    3419

    瀏覽量

    42769
  • ChatGPT
    +關注

    關注

    29

    文章

    1573

    瀏覽量

    8133
收藏 人收藏

    評論

    相關推薦

    PSPICE 生成模型和datasheet對應不上

    我要建立的是PA92的模型,源代碼在官網下的,PA92引腳如附件,生成模型如附件2.其中PA92實際上只有9有效引腳(不算連在一起的),
    發表于 04-23 11:08

    Simulink模型生成代碼

    本文首先通過一簡單的Simulink模型生成代碼,然后將代碼copy到一STM32工程中去編譯軟件。最后將軟件下載到STM32F407中,通過串口輸出Simulink計算的結果。閱
    發表于 08-11 07:56

    為什么生成模型值得研究

    1.Why study generative modeling? 人們可能很自然地想知道為什么生成模型值得研究,尤其是那些只能夠生成數據而不能提供密度函數估計的生成
    發表于 09-15 06:03

    在Arm虛擬硬件上部署PP-PicoDet模型

    。PP-PicoDet模型通過創新SOTA模塊,例如ESNet、CSP-PAN、SimOTA等,不僅第一實現了在1M參數量之內mAP(0.5:0.95)超越30+(輸入416像素時),而且其性能優于同類算法
    發表于 09-16 14:42

    在Arm虛擬硬件上部署PP-PicoDet模型的設計方案

    。PP-PicoDet 模型通過創新 SOTA 模塊,例如 ESNet、CSP-PAN、SimOTA 等,不僅第一實現了在 1M 參數量之內 mAP(0.5:0.95) 超越 30+ (輸入 416 像素時),而且其性能優于同
    發表于 09-23 15:02

    基于條件生成對抗網絡的面部表情遷移模型

    面部表情遷移是計算機視覺角色動畫領域的關鍵技術,但現有面部表情遷移方法存在生成表情不自然、缺乏真實感、遷移模型復雜以及訓練難度大等問題。為此,構建一種基于條件生成對抗網絡的面部表情遷
    發表于 05-13 15:31 ?6次下載

    使用NVIDIA DGX SuperPOD訓練SOTA大規模視覺模型

    在這篇文章中,我們展示了在大規模人工智能超級計算機上訓練 SOTA 大規模視覺 transformer 模型(如 VOLO \ u D5 )的主要技術和程序,如基于 NVIDIA DGX A100 的 DGX SuperPOD 。
    的頭像 發表于 05-30 10:17 ?2442次閱讀
    使用NVIDIA DGX SuperPOD訓練<b class='flag-5'>SOTA</b>大規模視覺<b class='flag-5'>模型</b>

    NVIDIA 為全球企業帶來生成 AI 推出用于創建大型語言模型和視覺模型的云服務

    為AI驅動的應用構建自定義模型 ? 加利福尼亞州圣克拉拉 – GTC – 太平洋時間 2023年3月21日 – 為了加速企業應用生成AI,NVIDIA今日宣布推出一套云服務,使企業能
    發表于 03-22 13:45 ?413次閱讀
    NVIDIA 為全球企業帶來<b class='flag-5'>生成</b><b class='flag-5'>式</b> AI  推出用于創建大型語言<b class='flag-5'>模型</b>和視覺<b class='flag-5'>模型</b>的云服務

    GTC23 | NVIDIA 為全球企業帶來生成 AI,推出用于創建大型語言模型和視覺模型的云服務

    Foundations 云服務為 AI 驅動的應用構建 自定義模型 加利福尼亞州圣克拉拉 – GTC – 太平洋時間 2023年3月21日 – 為了加速企業應用生成 AI,NVID
    的頭像 發表于 03-23 06:50 ?574次閱讀

    華為盤古大模型類別和五大優點

    華為盤古大模型類別和五大優點 OpenAI推出的大模型chatGPT帶火了人工智能,到現在GPT-4、多模態、AI生成圖片、AI
    的頭像 發表于 07-07 18:53 ?3195次閱讀

    基于大語言模型的共情回復生成:實證研究和改進

    對以ChatGPT為代表的LLMs在共情回復生成上的表現進行了全面的實證研究,LLMs在現有的基準數據集上,對比以往的SOTA模型,表現極其優越。
    的頭像 發表于 11-21 09:25 ?1275次閱讀
    基于大語言<b class='flag-5'>模型</b>的共情回復<b class='flag-5'>生成</b>:實證研究和改進

    生成 AI 進入模型驅動時代

    隨著ChatGPT和大型語言模型(LLM)呈現爆炸增長,生成人工智能(GenerativeAI)成為近來的一大熱詞。由此引發了一場爭論:哪種AI
    的頭像 發表于 04-13 08:12 ?597次閱讀
    <b class='flag-5'>生成</b><b class='flag-5'>式</b> AI 進入<b class='flag-5'>模型</b>驅動時代

    生成AI與神經網絡模型的區別和聯系

    生成AI與神經網絡模型是現代人工智能領域的兩核心概念,它們在推動技術進步和應用拓展方面發揮著至關重要的作用。本文將詳細探討生成
    的頭像 發表于 07-02 15:03 ?1032次閱讀

    NVIDIA推出全新生成AI模型Fugatto

    NVIDIA 開發了一全新的生成 AI 模型。利用輸入的文本和音頻,該模型可以創作出包含任意的音樂、人聲和聲音組合的作品。
    的頭像 發表于 11-27 11:29 ?466次閱讀

    生成人工智能模型的安全可信評測

    近些年來,生成人工智能技術取得了飛躍發展。隨著各式各樣的大模型不斷迭代升級,從一般通用生成能力,到各種專有領域的細分能力,再到更注重與用戶的實際交互,大
    的頭像 發表于 01-22 13:55 ?398次閱讀
    <b class='flag-5'>生成</b><b class='flag-5'>式</b>人工智能<b class='flag-5'>模型</b>的安全可信評測
    主站蜘蛛池模板: 色婷婷精品视频 | 色欲麻豆国产福利精品 | 天堂资源在线bt种子8 | 色综合久久一区二区三区 | 四虎影视色费永久在线观看 | 天天弄天天操 | 亚洲精品自拍区在线观看 | 色综合久久天天综合绕观看 | 免费黄色大片视频 | 成人a在线观看 | 真实子伦视频不卡 | 狠狠色丁香久久综合网 | 亚洲深夜| 免费看日本黄色片 | 欧美日韩国产成人高清视频 | 亚洲a成人 | 免费色视频 | 国产亚洲综合一区 柠檬导航 | 天天操夜夜操夜夜操 | 狠狠狠狼鲁欧美综合网免费 | 永久免费影视在线观看 | 在线观看成人网 | 久久综合九色欧美综合狠狠 | 午夜激情福利网 | 色男人在线| 天天天天添天天拍天天谢 | 午夜色大片 | 四虎影院在线观看免费 | 国产成人亚洲精品77 | 天堂网www在线资源 天堂网www在线资源链接 | 性欧美video视频另类 | 一二三区乱码一区二区三区码 | 婷婷狠狠 | 国产精品欧美激情第一页 | 国产精品香蕉成人网在线观看 | 新版天堂中文资源官网 | 天堂网在线资源www最新版 | 日本三级日本三级日本三级极 | 日本xxx69| 嫩草影院永久入口在线观看 | 夜夜艹日日干 |