基礎模型是在大量無標簽數據集上訓練的 AI 神經網絡,可處理從翻譯文本到分析醫學影像等各種工作。
1956 年,一間錄音室里的麥克風開著,磁帶在不停地轉動,Miles Davis Quintet 正在里面為 Prestige Records 錄制幾十首曲子。
當一名錄音工程師問起下一首歌曲叫什么時,Davis 回答道:“等我演奏完后,再告訴你它叫什么?!?/p>
如同這位多產的爵士樂小號手兼作曲家一樣,研究人員也一直在以瘋狂的速度生成 AI 模型,探索新的架構和用例。他們把精力都放到了開拓新領域上,因此有時會讓其他人來分類他們的工作。
一支百來名斯坦福大學研究人員組成的團隊在 2021 年夏天發布了一篇論文,共同完成了這項工作。
研究人員在 2021 年的一篇論文中表示,基礎模型的用途正在變得越來越廣泛。
他們把 Transformer 模型、大型語言模型(LLM)和其他仍在構建的神經網絡歸入到這個被他們稱之為基礎模型的重要新類別中。
基礎模型的定義
這篇論文將基礎模型定義為一種在大量原始數據的基礎上通過無監督學習訓練而成的 AI 神經網絡,可適應各種任務。
他們在論文中寫道:“過去幾年中,基礎模型的規模和范圍超出了我們的想象?!?/p>
在定義這個總括性的類別時考慮了兩個重要的概念:是否讓數據采集變得更容易以及是否有無邊無垠的可能性。
沒有標簽,但有無限的可能性
基礎模型通常使用無標簽數據集進行學習,節省了手動描述大量數據集內各個項目的時間和費用。
早期的神經網絡會被針對特定任務進行嚴格的調整。在經過略微調整后,基礎模型就可以負責從翻譯文本到分析醫學影像等各類工作。
該團隊在其研究中心網站上表示,基礎模型正展現出“驚人的行為”并且正在被大規模部署。到目前為止,團隊內部研究人員已經發布了 50 多篇關于基礎模型的論文。
中心主任 Percy Liang 在第一次基礎模型研討會開場演講中表示:“我認為我們現在只開發了現今基礎模型很小一部分的能力,更不用說未來的模型了?!?/p>
AI 的涌現和同質化
在那次演講中,Liang 創造了兩個術語來描述基礎模型:
涌現指仍在發掘的 AI 特征,比如基礎模型中的許多新生技能。他還把 AI 算法和模型架構的混合稱為同質化,該趨勢推動了基礎模型的形成(見下圖)。
這個領域正在繼續快速發展。
在該團隊定義基礎模型一年后,其他科技觀察家創造了一個與之相關的術語——生成式 AI。這個總括性的術語指 Transformer 、大型語言模型、擴散模型等憑借創造文本、圖像、音樂、軟件等內容的能力拓展人們想象力的神經網絡。
風投公司紅杉資本的高管在最近的 AI 播客節目中表示,生成式 AI 可能創造數萬億美元的經濟價值。
基礎模型簡史
企業家兼 Google Brain 前高級研究科學家 Ashish Vaswani 表示:“我們已進入到一個通過神經網絡這樣的簡單方法就能成倍增加新能力的時代。”他曾領導 2017 年那篇關于 Transformer 的開創性論文的研究工作。
這篇論文啟發了創建 BERT 和其他大型語言模型的研究人員。2018 年末的一篇 AI 報告寫道,2018 年是自然語言處理的“分水嶺”。
谷歌將 BERT 作為開源軟件發布,催生了一系列后續產品并點燃了一場構建更大、更強的大型語言模型的競賽。之后,谷歌將該技術應用于其搜索引擎,使用戶可以使用簡單的句子提問。
2020 年,OpenAI 的研究人員發布了另一個具有里程碑意義的 Transformer—GPT-3。僅僅過了幾周,人們就用它來創作詩歌、程序、歌曲、網站等等。
研究人員表示:“語言模型對社會有著各種有益的用途?!?/p>
他們的工作也顯示了這些模型龐大的規模和計算量。GPT-3 是在一個含近萬億個單詞的數據集上訓練的,并且擁有高達 1750 億個參數。而參數量是衡量神經網絡能力和復雜性的一個關鍵指標。
基礎模型算力需求的增長。
(來源:GPT-3論文)
Liang 在談到 GPT-3 時說道:“我只記得當時我被它能做的事情嚇了一跳?!?/p>
而在 10000 個 NVIDIA GPU 上訓練而成的最新版本——ChatGPT 更加轟動,在短短兩個月內就吸引了超過 1 億用戶。ChatGPT 幫助許多人了解了可以如何使用這項技術,它的發布被稱為人工智能的“iPhone 時刻”。
從早期 AI 研究到 ChatGPT 的時間線。
(來源:blog.bytebytego.com)
從文本到圖像
大約在 ChatGPT 首次亮相的同時,另一類被稱為擴散模型的神經網絡也引起了轟動。其將文本描述轉化為藝術圖像的能力吸引了眾多業余用戶用它們來創造驚艷的圖像并在社交媒體上瘋傳。
第一篇描述擴散模型的論文在 2015 年悄無聲息地發布,但就像 Transformer 一樣,這項新技術很快就火遍全球。
根據牛津大學 AI 研究員 James Thornton 維護的一份清單,研究人員去年發布了 200 多篇關于擴散模型的論文。
Midjourney 首席執行官 David Holz 透露,其基于擴散模型的文本-圖像轉換服務已有 440 多萬用戶。他在一次采訪中表示,為這些用戶提供服務需要超過 1 萬顆 NVIDIA GPU,這些 GPU 主要用于 AI 推理。
數十種正在使用的模型
目前有數以百計的基礎模型。有一篇論文對 50 多個主要的 Transformer 模型進行了編目和分類(見下方表格)。
斯坦福大學的研究小組對 30 個基礎模型進行了基準測試。他們表示,該領域的發展太快,以至于他們沒能在這次測試對一些最新和突出的模型進行評估。
初創企業 NLP Cloud 是領先初創企業培育計劃——NVIDIA 初創加速計劃的成員。該公司表示其在為航空公司、藥店和其他用戶服務的一項商業產品中使用了大約 25 個大型語言模型。專家們預計,越來越多的模型將在如 Hugging Face 的模型中心等網站開放源碼。
專家們指出,越來越多的基礎模型正在開放源碼。
基礎模型也在不斷變得更大、更復雜。所以許多企業已經在定制預訓練的基礎模型來加快向 AI 轉型的速度,而不是從頭開始構建新的模型。
云中的基礎模型
一家風險投資公司列出了從廣告生成到語義搜索等 33 個生成式 AI 用例。
各大云服務使用基礎模型已經有一段時間了。例如微軟 Azure 與 NVIDIA 一起為其 Translator 服務構建了一個 Transformer。該 Transformer 幫助救災人員在應對 7.0 級地震時理解海地克里奧爾語。
今年 2 月,微軟宣布計劃使用 ChatGPT 和相關創新來改進其瀏覽器和搜索引擎,表示:“我們將這些工具視為網絡中的 AI 副駕駛。”
谷歌發布了實驗性對話式 AI 服務 Bard,計劃將其眾多產品與 LaMDA、PaLM、Imagen、MusicLM 等基礎模型相結合。
該公司的博客寫道:“AI 是我們今天正在研究的最具影響力的技術?!?/p>
初創企業也從中獲益
初創企業 Jasper 預計其為 VMware 等公司編寫文案的產品將帶來 7500 萬美元的年收入。該企業正在領導由十幾家公司組成的文本生成領域,其中包括 NVIDIA 初創加速計劃成員 Writer。
該領域的其他初創加速計劃成員包括:位于東京的 rinna 和特拉維夫的 Tabnine。前者創造出了被日本數百萬人使用的聊天機器人;后者運營的一項生成式 AI 服務將全球一百萬開發者所編寫的代碼中的 30%自動化。
醫療平臺
初創企業 Evozyne 的研究人員利用 NVIDIA BioNeMo 中的基礎模型生成了兩種新的蛋白質。其中一種蛋白質可以治療一種罕見的疾病,另一種可以幫助捕捉大氣中的碳。
Evozyne 和 NVIDIA 在一篇聯合論文中描述了一種用于創建蛋白質的混合基礎模型。
BioNeMo 是用于藥物研發的生成式 AI 軟件平臺和云服務。它提供各種用于訓練、運行推理和部署自定義生物分子 AI 模型的工具,包括由 NVIDIA 和阿斯利康聯合開發的化學生成式 AI 模型——MegaMolBART。
阿斯利康分子 AI、發現科學和研發部門主管 Ola Engkvist 在宣布該模型時表示:“正如 AI 語言模型可以學習句子中單詞之間的關系一樣,我們的目標是讓在分子結構數據上訓練的神經網絡能夠學習真實分子中原子之間的關系。”
佛羅里達大學的學術健康中心與 NVIDIA 研究人員聯合創建了大型語言模型 GatorTron,該模型能夠從大量臨床數據中提煉出加速醫學研究的洞察。
斯坦福大學的一座中心正在使用最新的擴散模型來推進醫學成像。NVIDIA 還幫助醫療公司和醫院將 AI 用于醫學影像,以便加快對致命疾病的診斷。
商業 AI 基礎模型
另一個新框架 NVIDIA NeMo Megatron 旨在讓所有企業能夠創建自己的十億或萬億參數 Transformer 來驅動自定義聊天機器人、個人助手和其他 AI 應用。
它創造了擁有 5300 億個參數的 Megatron-Turing 自然語言生成模型(MT-NLG)。該模型驅動了 2022 年 NVIDIA GTC 大會上發表了部分主題演講的“Toy Jensen”虛擬化身。
與 NVIDIA Omniverse 等 3D 平臺相連的基礎模型將是讓 3D 互聯網——元宇宙的開發變得更加簡單的關鍵。這些模型將驅動娛樂和工業用戶的應用與資產。
工廠和倉庫已在數字孿生內使用基礎模型,依靠這種逼真的模擬尋找更高效的工作方式。
基礎模型可以讓訓練在工廠車間和物流中心協助人類的自動駕駛汽車和機器人變得更輕松,還可以通過創造現實環境來幫助訓練自動駕駛汽車。
基礎模型每天都能出現新的用途,但隨之而來的還有應用方面的挑戰。
有幾篇關于基礎和生成式 AI 模型的論文描述了一些風險,比如:
放大用于訓練模型的大量數據集內所隱含的偏見
侵犯現有作品的知識產權
斯坦福大學的一篇關于基礎模型的論文寫道:“鑒于未來的 AI 系統可能會嚴重依賴基礎模型,我們整個行業必須共同為基礎模型制定更嚴格的原則并提供如何負責任地開發和部署基礎模型方面的指導。
目前的一些保障措施包括過濾提示和它們的輸出結果、在使用中重新校準模型、清洗大規模數據集等。
NVIDIA 應用深度學習研究副總裁 Bryan Catanzaro 表示:“這些都是我們這些研究人員正在努力解決的問題。為了真正能夠廣泛部署這些模型,我們必須在安全方面投入大量人力物力?!?/p>
這是 AI 研究人員和開發人員在創造未來的過程中所需要探索的又一個領域。
審核編輯 :李倩
-
神經網絡
+關注
關注
42文章
4785瀏覽量
101273 -
AI
+關注
關注
87文章
31844瀏覽量
270639 -
模型
+關注
關注
1文章
3372瀏覽量
49299 -
數據集
+關注
關注
4文章
1210瀏覽量
24861
原文標題:什么是基礎模型?
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
【「基于大模型的RAG應用開發與優化」閱讀體驗】+大模型微調技術解讀
【「大模型啟示錄」閱讀體驗】營銷領域大模型的應用
【「大模型啟示錄」閱讀體驗】對大模型更深入的認知
【「大模型啟示錄」閱讀體驗】如何在客服領域應用大模型
![](https://file1.elecfans.com/web2/M00/0B/EF/wKgaomcsMeiALiWhAAJp9OGW638161.jpg)
AI大模型與小模型的優缺點
鴻蒙應用模型:【應用模型】解析
![鴻蒙應用<b class='flag-5'>模型</b>:【應用<b class='flag-5'>模型</b>】解析](https://file1.elecfans.com/web2/M00/EA/D2/wKgaomZVz_2AdNl_AADm68VM4QA306.jpg)
評論