電子發(fā)燒友網(wǎng)報道(文/周凱揚)近年來,有關(guān)大語言模型(LLM)的開發(fā)非?;钴S,尤其是在中國、美國等市場。以O(shè)penAI開發(fā)的ChatGPT為例,其迅速普及極大影響了技術(shù)研發(fā)、經(jīng)濟(jì)系統(tǒng)等,為此不少國家政府也投入到LLM的計算資源整合中來,從而不至于落后這輪新的全球技術(shù)軍備戰(zhàn)。同樣的計算資源競爭也發(fā)生在超算領(lǐng)域,而兩者的計算資源存在一定的重合,不少人開始借助超算來進(jìn)行LLM的開發(fā)。
超算訓(xùn)練大模型的天然優(yōu)勢
大語言模型的訓(xùn)練經(jīng)常會撞上GPU的內(nèi)存墻,比如訓(xùn)練一個萬億參數(shù)的模型,就需要至少24TB的GPU內(nèi)存。好在對于現(xiàn)代超算系統(tǒng)而言,GPU已經(jīng)成為不可或缺的算力資源之一,不少超算的GPU規(guī)模與云服務(wù)廠商的數(shù)據(jù)中心相比,也不遑多讓。以目前排名第一的Frontier超算為例,就集成了37888塊AMD MI250X GPU。
美國橡樹嶺國家實驗室的研究人員除了用Frontier完成科學(xué)計算任務(wù)以外,也使用了一部分GPU資源訓(xùn)練一個萬億級參數(shù)的LLM。據(jù)他們發(fā)布的論文,使用3072塊MI250X GPU,他們訓(xùn)練了一個一萬億參數(shù)的大語言模型,這樣的規(guī)模已經(jīng)與OpenAI的GPT-4在同一水平線上了。
絕大多數(shù)模型的內(nèi)存要求,除了來自參數(shù)量外,也來自梯度和優(yōu)化器狀態(tài)。盡管對大模型訓(xùn)練的任務(wù)進(jìn)行了并行分解,美國橡樹嶺國家實驗室的研究人員發(fā)現(xiàn)訓(xùn)練一個萬億級別的大模型還是需要14TB的內(nèi)存,好在單個MI250X就擁有64GB的顯存,足以滿足訓(xùn)練要求。
富岳大模型
日前,一隊日本研究員發(fā)布了富岳-LLM,一個專門針對日語能力進(jìn)行加強的大語言模型,由RIKEN的超算系統(tǒng)富岳訓(xùn)練。盡管目前GPU才是訓(xùn)練LLM的首選硬件,而富岳超算是基于自研的Arm架構(gòu)處理器構(gòu)筑的,只有CPU并沒有GPU。
為了在富岳上訓(xùn)練大語言模型,研究員們開發(fā)了分布式的訓(xùn)練方案,將深度學(xué)習(xí)框架Megatron-DeepSpeed移植到富岳上,從而優(yōu)化Transformer模型在富岳上的性能表現(xiàn)。通過加速Transformer的密集矩陣乘法庫,并結(jié)合三種并行化技術(shù)優(yōu)化富岳的通信性能,富岳的并行訓(xùn)練能力得到了最大化。
富岳大模型有130億參數(shù),比目前已經(jīng)在日本廣泛使用的70億參數(shù)模型規(guī)模還要大,盡管市面上早已出現(xiàn)參數(shù)更大的模型,但對于富岳超算來說,這已經(jīng)是一個平衡高性能與計算資源的選擇了。
除此之外,不少日本公司開發(fā)的大模型采用持續(xù)學(xué)習(xí),采用海外開發(fā)的公開模型,用日本數(shù)據(jù)進(jìn)行持續(xù)訓(xùn)練。而富岳大模型則是采用團(tuán)隊自己的數(shù)據(jù)從頭開始訓(xùn)練的,所以在透明度和安全性上更高一籌。
富岳大模型用到了3800萬個Token和富岳超算的13824個節(jié)點,其數(shù)據(jù)60%為日語,并與英語、數(shù)學(xué)運算和代碼結(jié)合。該模型在人文和社會科學(xué)任務(wù)中獲得了9.18的基準(zhǔn)跑分,可以結(jié)合敬語或日語的其他特征進(jìn)行自然對話。
寫在最后
隨著各地區(qū)紛紛開始建設(shè)超算智算資源,如何提高這些計算資源的利用率也成了關(guān)鍵。而訓(xùn)練大模型恰好需要用到如此龐大的計算資源,也有助于為各行各業(yè)提供可用大模型應(yīng)用,由此看來,未來超算上大模型訓(xùn)練的場景也會越來越普遍。
超算訓(xùn)練大模型的天然優(yōu)勢
大語言模型的訓(xùn)練經(jīng)常會撞上GPU的內(nèi)存墻,比如訓(xùn)練一個萬億參數(shù)的模型,就需要至少24TB的GPU內(nèi)存。好在對于現(xiàn)代超算系統(tǒng)而言,GPU已經(jīng)成為不可或缺的算力資源之一,不少超算的GPU規(guī)模與云服務(wù)廠商的數(shù)據(jù)中心相比,也不遑多讓。以目前排名第一的Frontier超算為例,就集成了37888塊AMD MI250X GPU。
美國橡樹嶺國家實驗室的研究人員除了用Frontier完成科學(xué)計算任務(wù)以外,也使用了一部分GPU資源訓(xùn)練一個萬億級參數(shù)的LLM。據(jù)他們發(fā)布的論文,使用3072塊MI250X GPU,他們訓(xùn)練了一個一萬億參數(shù)的大語言模型,這樣的規(guī)模已經(jīng)與OpenAI的GPT-4在同一水平線上了。
絕大多數(shù)模型的內(nèi)存要求,除了來自參數(shù)量外,也來自梯度和優(yōu)化器狀態(tài)。盡管對大模型訓(xùn)練的任務(wù)進(jìn)行了并行分解,美國橡樹嶺國家實驗室的研究人員發(fā)現(xiàn)訓(xùn)練一個萬億級別的大模型還是需要14TB的內(nèi)存,好在單個MI250X就擁有64GB的顯存,足以滿足訓(xùn)練要求。
富岳大模型
日前,一隊日本研究員發(fā)布了富岳-LLM,一個專門針對日語能力進(jìn)行加強的大語言模型,由RIKEN的超算系統(tǒng)富岳訓(xùn)練。盡管目前GPU才是訓(xùn)練LLM的首選硬件,而富岳超算是基于自研的Arm架構(gòu)處理器構(gòu)筑的,只有CPU并沒有GPU。
為了在富岳上訓(xùn)練大語言模型,研究員們開發(fā)了分布式的訓(xùn)練方案,將深度學(xué)習(xí)框架Megatron-DeepSpeed移植到富岳上,從而優(yōu)化Transformer模型在富岳上的性能表現(xiàn)。通過加速Transformer的密集矩陣乘法庫,并結(jié)合三種并行化技術(shù)優(yōu)化富岳的通信性能,富岳的并行訓(xùn)練能力得到了最大化。
富岳大模型有130億參數(shù),比目前已經(jīng)在日本廣泛使用的70億參數(shù)模型規(guī)模還要大,盡管市面上早已出現(xiàn)參數(shù)更大的模型,但對于富岳超算來說,這已經(jīng)是一個平衡高性能與計算資源的選擇了。
除此之外,不少日本公司開發(fā)的大模型采用持續(xù)學(xué)習(xí),采用海外開發(fā)的公開模型,用日本數(shù)據(jù)進(jìn)行持續(xù)訓(xùn)練。而富岳大模型則是采用團(tuán)隊自己的數(shù)據(jù)從頭開始訓(xùn)練的,所以在透明度和安全性上更高一籌。
富岳大模型用到了3800萬個Token和富岳超算的13824個節(jié)點,其數(shù)據(jù)60%為日語,并與英語、數(shù)學(xué)運算和代碼結(jié)合。該模型在人文和社會科學(xué)任務(wù)中獲得了9.18的基準(zhǔn)跑分,可以結(jié)合敬語或日語的其他特征進(jìn)行自然對話。
寫在最后
隨著各地區(qū)紛紛開始建設(shè)超算智算資源,如何提高這些計算資源的利用率也成了關(guān)鍵。而訓(xùn)練大模型恰好需要用到如此龐大的計算資源,也有助于為各行各業(yè)提供可用大模型應(yīng)用,由此看來,未來超算上大模型訓(xùn)練的場景也會越來越普遍。
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。
舉報投訴
-
超算
+關(guān)注
關(guān)注
1文章
115瀏覽量
9144 -
大模型
+關(guān)注
關(guān)注
2文章
2598瀏覽量
3211
發(fā)布評論請先 登錄
相關(guān)推薦
GPU是如何訓(xùn)練AI大模型的
在AI模型的訓(xùn)練過程中,大量的計算工作集中在矩陣乘法、向量加法和激活函數(shù)等運算上。這些運算正是GPU所擅長的。接下來,AI部落小編帶您了解GPU是如何訓(xùn)練AI大
AI云端計算資源有哪些類型
AI云端計算資源涵蓋了從基礎(chǔ)設(shè)施到軟件服務(wù)的多個層面,為AI模型的訓(xùn)練、推理和部署提供了強大的支持。下面,AI部落小編為您詳細(xì)介紹AI云端計算
從零開始訓(xùn)練一個大語言模型需要投資多少錢?
關(guān)于訓(xùn)練技巧和模型評估的文章,但很少有直接告訴你如何估算訓(xùn)練時間和成本的。前面分享了一些關(guān)于大模型/本地知識庫的安裝部署方法,無需編寫代碼,
如何訓(xùn)練自己的LLM模型
訓(xùn)練自己的大型語言模型(LLM)是一個復(fù)雜且資源密集的過程,涉及到大量的數(shù)據(jù)、計算資源和專業(yè)知識
ai模型訓(xùn)練需要什么配置
AI模型訓(xùn)練是一個復(fù)雜且資源密集的過程,它依賴于高性能的硬件配置來確保訓(xùn)練的效率和效果。 一、處
大模型后訓(xùn)練時代,九章云極DataCanvas公司打造普惠算力服務(wù)新范式
在數(shù)據(jù)存儲與處理的關(guān)鍵環(huán)節(jié),大模型后訓(xùn)練模式對系統(tǒng)的安全性提出了更高要求,以確保算力資源能夠無縫且安全地融入各類業(yè)務(wù)系統(tǒng)。依托業(yè)務(wù)系統(tǒng)與互聯(lián)網(wǎng)的海量數(shù)據(jù)
摩爾線程與羽人科技完成大語言模型訓(xùn)練測試
近日,摩爾線程與羽人科技攜手宣布,雙方已成功實現(xiàn)夸娥(KUAE)千卡智算集群與羽人系列模型解決方案的訓(xùn)練兼容適配。在本次測試中,羽人科技通過摩爾線程夸娥千卡智算集群,高效完成了70億參
如何理解云計算?
和硬件資源。
在數(shù)字化時代,互聯(lián)網(wǎng)已經(jīng)成為基礎(chǔ)設(shè)施。云計算使得數(shù)據(jù)中心能夠像一臺計算機一樣去工作。通過互聯(lián)網(wǎng)將
發(fā)表于 08-16 17:02
llm模型訓(xùn)練一般用什么系統(tǒng)
LLM(Large Language Model,大型語言模型)是近年來在自然語言處理領(lǐng)域取得顯著成果的一種深度學(xué)習(xí)模型。它通常需要大量的計算資源
人臉識別模型訓(xùn)練流程
人臉識別模型訓(xùn)練流程是計算機視覺領(lǐng)域中的一項重要技術(shù)。本文將詳細(xì)介紹人臉識別模型的訓(xùn)練流程,包括
預(yù)訓(xùn)練模型的基本原理和應(yīng)用
預(yù)訓(xùn)練模型(Pre-trained Model)是深度學(xué)習(xí)和機器學(xué)習(xí)領(lǐng)域中的一個重要概念,尤其是在自然語言處理(NLP)和計算機視覺(CV)等領(lǐng)域中得到了廣泛應(yīng)用。預(yù)
深度學(xué)習(xí)模型訓(xùn)練過程詳解
深度學(xué)習(xí)模型訓(xùn)練是一個復(fù)雜且關(guān)鍵的過程,它涉及大量的數(shù)據(jù)、計算資源和精心設(shè)計的算法。訓(xùn)練
【大語言模型:原理與工程實踐】大語言模型的預(yù)訓(xùn)練
具有以下三個非常顯著的特點,一個就是模型參數(shù)規(guī)模更大,訓(xùn)練數(shù)據(jù)更多。當(dāng)然,對計算資源的要求也會更高。
構(gòu)建強大的語言
發(fā)表于 05-07 17:10
科學(xué)計算的下一輪創(chuàng)新,AI超算與數(shù)字孿生
應(yīng)用的行列中來。 ? AI 超算與數(shù)字孿生 ? 在過去通用計算負(fù)載的時代,我們難以采用更大規(guī)模的計算集群來打造數(shù)字孿生。可隨著AI技術(shù),尤其是生成式AI技術(shù)的出現(xiàn),采用高度定制化的AI
求問電子設(shè)計自學(xué)路徑
新手小白也想自己做出小車、小電視甚至小機器人等等有意思的項目,有C語言基礎(chǔ)并且對stm32有了一丁點基礎(chǔ)的了解,但是硬件、電路設(shè)計以及更高階的程序語言仍然一竅不通。請問自學(xué)路徑是怎么樣的(硬件和軟件)?如何從0開始入門呢?如果有推薦的網(wǎng)課或者書籍,那就更好啦!謝謝各位大佬
發(fā)表于 03-23 21:42
評論