在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

GPT-4 Turbo 發(fā)布 | 大模型訓(xùn)練的新時(shí)代:超算互聯(lián)網(wǎng)的調(diào)度與調(diào)優(yōu)

GPU視覺(jué)識(shí)別 ? 來(lái)源:GPU視覺(jué)識(shí)別 ? 作者:GPU視覺(jué)識(shí)別 ? 2023-11-09 09:06 ? 次閱讀

★OpenAI;ChatGPT;Sam Altman;Assistance API;GPT4 Turbo;DALL-E 3;多模態(tài)交互;算力調(diào)度;算力調(diào)優(yōu);大模型訓(xùn)練;GH200;snowflake;AGI;AIGC;H100;A100;DGX Cloud 集群;Base Command;GPU算力;華為 Atlas 900 集群;NVIDIA NVLink;開(kāi)發(fā)者大會(huì)

北京時(shí)間11月7日凌晨2點(diǎn),OpenAI在舊金山舉行的開(kāi)發(fā)者大會(huì)吸引了全球的關(guān)注。在不到一小時(shí)的線上發(fā)布會(huì)上,OpenAI發(fā)布許多重磅消息,鼓勵(lì)企業(yè)使用OpenAI的技術(shù)構(gòu)建基于人工智能的聊天機(jī)器人和自主智能體。

算力對(duì)訓(xùn)練模型的重要性日益凸顯。隨著大模型訓(xùn)練的流行,全球顯卡和算力正在快速增長(zhǎng)。算力后周期市場(chǎng)也在迅速崛起。其中“后”更多是指后服務(wù)市場(chǎng),涵蓋從顯卡服務(wù)器到貨IDC之后,形成穩(wěn)定算力到輸出穩(wěn)定商業(yè)推理結(jié)果全過(guò)程。該過(guò)程主要涉及云化、調(diào)優(yōu)、調(diào)度、部署、落地和數(shù)據(jù)管理等環(huán)節(jié)。

wKgZomVMMGaAYhcWAAAAK9URceg522.gif

wKgaomVMMGeAM4GsAAuCIpNGhIs002.png

算力的后周期

大模型訓(xùn)練困難、商用成本高昂和安全問(wèn)題擔(dān)憂,催生算力后周期市場(chǎng)需求。大模型訓(xùn)練面臨超大規(guī)模參數(shù)和運(yùn)算量問(wèn)題,需要解決顯卡之間數(shù)據(jù)并行和運(yùn)算合作,使得后周期需求如云化、調(diào)優(yōu)、調(diào)度等應(yīng)運(yùn)而生。參數(shù)多則準(zhǔn)確度高,而反應(yīng)時(shí)間和消耗費(fèi)用也愈增,開(kāi)發(fā)者需要面對(duì)如何快速將新模型部署到應(yīng)用場(chǎng)景問(wèn)題。另外,大模型安全問(wèn)題也令人擔(dān)憂,需要考慮如何實(shí)現(xiàn)在保證數(shù)據(jù)安全的前提下,企業(yè)原有數(shù)據(jù)庫(kù)與訓(xùn)練系統(tǒng)的相互調(diào)用,以及如何實(shí)現(xiàn)原有數(shù)據(jù)對(duì)“AI”訓(xùn)練的可用等。

全球算力后周期發(fā)展呈現(xiàn)出兩個(gè)截然不同生態(tài)。在涉及算力使用和大模型訓(xùn)練等上層建筑時(shí),整個(gè)行業(yè)對(duì)于資本支出、模型經(jīng)驗(yàn)積累等方面的壁壘正在逐漸加深。大模型時(shí)代,天量資本支出已經(jīng)成為入場(chǎng)券,模型研究從“巧奪天工”到“重劍無(wú)鋒”的轉(zhuǎn)變,使得大算力、大模型的壁壘不斷提高,行業(yè)格局加速走向巨頭通吃。

wKgZomVMMGaAYhcWAAAAK9URceg522.gif

wKgZomVMMGiAPr5BAAetVyG94YI044.png

Buy More Save More 的典型代表 英偉達(dá)GH200 芯片

在商業(yè)落地、數(shù)據(jù)安全和平臺(tái)可視化等模型下游環(huán)節(jié)中,北美創(chuàng)業(yè)公司展現(xiàn)出百花齊放的生態(tài)。在訓(xùn)練過(guò)程與資源可視化、數(shù)據(jù)庫(kù)調(diào)用、模型加速部署與性價(jià)比調(diào)節(jié)等方面,涌現(xiàn)出一批優(yōu)秀創(chuàng)業(yè)公司與解決方案。同時(shí),原有領(lǐng)域龍頭軟件公司也在積極開(kāi)發(fā)方案,對(duì)接AI需求。與大模型和算力戰(zhàn)爭(zhēng)中的巨頭壟斷不同,這個(gè)領(lǐng)域各個(gè)環(huán)節(jié)充滿生機(jī),更容易在細(xì)分環(huán)節(jié)中成長(zhǎng)出新的優(yōu)秀獨(dú)角獸公司。

wKgZomVMMGaAYhcWAAAAK9URceg522.gif

wKgaomVMMGiATnSPAAbSVmRSR7g177.png

數(shù)據(jù)庫(kù)巨頭 Snowflake 與英偉達(dá)合作

隨著國(guó)內(nèi)算力資源增長(zhǎng)和模型訓(xùn)練深入,對(duì)算力和模型層面的投資將重新聚焦。受海外算力制裁的影響,國(guó)內(nèi)如昇騰等國(guó)產(chǎn)優(yōu)秀生態(tài)發(fā)展和起量過(guò)程中,可能也將涌現(xiàn)出一批優(yōu)秀的行業(yè)加速庫(kù)、生態(tài)軟件公司,擴(kuò)展出具有中國(guó)特色的相關(guān)模型服務(wù)體系,走出一條有中國(guó)特色的模型服務(wù)體系之路。

OpenAI開(kāi)發(fā)者大會(huì)亮點(diǎn)

OpenAICEOSam Altman在會(huì)上介紹了公司的一系列重要進(jìn)展,包括推出新的GPT-4 Turbo模型,該模型具有更強(qiáng)大的功能、更長(zhǎng)的上下文和更強(qiáng)的控制能力。同時(shí),OpenAI還推出Assistance API,旨在簡(jiǎn)化開(kāi)發(fā)者構(gòu)建輔助代理。

Altman強(qiáng)調(diào)自然語(yǔ)言將成為未來(lái)與計(jì)算機(jī)互動(dòng)的重要方式,并展示通過(guò)對(duì)話編程GPT的能力。GPT商店即將推出,允許用戶分享和發(fā)現(xiàn)創(chuàng)新的GPT應(yīng)用,并提供收入分享激勵(lì)。此外,OpenAI還與微軟深化合作,展示新的文本到語(yǔ)音模型和改進(jìn)的功能調(diào)用。


wKgZomVMMGaAYhcWAAAAK9URceg522.gif

wKgZomVMMGmAd6riAAr0J3CoHMM830.png

一、GPT4 Turbo發(fā)布

GPT-4 Turbo,在6個(gè)方面對(duì)GPT-4進(jìn)行升級(jí):

上下文對(duì)話長(zhǎng)度:GPT-4 Turbo支持更長(zhǎng)的上下文對(duì)話長(zhǎng)度,達(dá)到128K,是GPT-4的16倍。

模型控制:采用新模型控制技術(shù),使開(kāi)發(fā)者更精細(xì)地調(diào)整輸出,提升用戶體驗(yàn)。

知識(shí)庫(kù)更新:至2023年4月,比GPT-4的知識(shí)庫(kù)新近2年。

多模態(tài)API:集成DALL-E 3、帶視覺(jué)輸入的GPT-4 Turbo和新的語(yǔ)音合成模型。

定制微調(diào):允許開(kāi)發(fā)者針對(duì)特定領(lǐng)域進(jìn)行自定義微調(diào)。

更低價(jià)格和更高限制:價(jià)格更低但使用限制更高,輸入輸出token價(jià)格僅為GPT-4的1/3和1/2,每分鐘限制提升一倍。

SamAltman聲稱,GPT-4 Turbo可供所有付費(fèi)開(kāi)發(fā)者通過(guò)gpt-4-1106-preview API進(jìn)行嘗鮮,相關(guān)穩(wěn)定版本預(yù)計(jì)將在未來(lái)幾周內(nèi)發(fā)布。

wKgZomVMMGaAYhcWAAAAK9URceg522.gif

wKgaomVMMGmAKPj1AAlEYVfkRlU892.png

二、GPT Store將上線

定制版GPT可以根據(jù)用戶日常生活、特定任務(wù)或工作需求提供個(gè)性化幫助,如學(xué)習(xí)棋類游戲規(guī)則、輔導(dǎo)孩子數(shù)學(xué)、提高寫作能力或設(shè)計(jì)貼紙等。用戶甚至可以與他人分享自己定制的GPT。

用戶無(wú)需編程就可以創(chuàng)建自己的GPT,過(guò)程非常簡(jiǎn)單,只需給GPT輸入指令和知識(shí),然后選擇其功能,例如網(wǎng)絡(luò)搜索、圖像生成或數(shù)據(jù)分析。定制GPT可以私人使用,也可以面向公司內(nèi)部或制作公共通用版本。

OpenAI正在為ChatGPT Plus和企業(yè)版ChatGPT用戶提供定制GPT示例,例如AI圖像生成應(yīng)用Canva和自動(dòng)化平臺(tái)Zapier。從本周三開(kāi)始,企業(yè)版用戶可以為特定客戶、部門或數(shù)據(jù)集創(chuàng)建自己的ChatGPT,并可以授權(quán)內(nèi)部用戶無(wú)代碼設(shè)計(jì)企業(yè)定制GPT,并安全發(fā)布到內(nèi)部工作區(qū)。管理控制臺(tái)可以選擇如何在公司內(nèi)共享這些GPT,以及是否允許使用外部GPT。

wKgZomVMMGaAYhcWAAAAK9URceg522.gif

wKgZomVMMGqAVLasAAxurysfOf8392.png

三、New GPT Draft

OpenAI表示,即使不會(huì)編程也可以制作GPT模型。只需與ChatGPT聊天,描述需求,就可以定制一個(gè)GPT模型,使GPT變得非常容易使用,可為每個(gè)人提供代理權(quán),做想做的事。

四、全面的API助手

API是一種計(jì)算接口,規(guī)定了不同軟件組件之間的交互方式、可進(jìn)行調(diào)用或請(qǐng)求的種類、如何進(jìn)行調(diào)用或請(qǐng)求,以及應(yīng)使用的數(shù)據(jù)格式和應(yīng)遵循的慣例等。

根據(jù)OpenAI公司的官方信息,目前使用GPT-4和GPT-3.5 Turbo上傳750詞的文檔分別需要支付0.06美元和0.003美元(以最高速度計(jì)算)。在這次大會(huì)上,OpenAI還發(fā)布具有記憶功能的內(nèi)存存儲(chǔ)API,可以提高大模型的計(jì)算速度,并將開(kāi)發(fā)者的API調(diào)用成本降低95%。

此外,OpenAI還發(fā)布專門的Assistants API,使開(kāi)發(fā)人員可以更輕松地構(gòu)建自己的輔助AI應(yīng)用,調(diào)用模型和工具以實(shí)現(xiàn)自己的目標(biāo)。

wKgaomVMMGuAarUGAAfKlO8P9pc052.png

Assistants API 提供代碼解釋、檢索和函數(shù)調(diào)用等新功能,幫助開(kāi)發(fā)者處理繁重工作,從而構(gòu)建高質(zhì)量AI應(yīng)用。OpenAI介紹,這種API是為了靈活性設(shè)計(jì),用例范圍廣泛,包括基于自然語(yǔ)言的數(shù)據(jù)分析應(yīng)用、編碼助手、AI驅(qū)動(dòng)的假期規(guī)劃器、語(yǔ)音控制DJ、智能視覺(jué)畫布。Assistants API功能和新GPT產(chǎn)品相同,都支持自定義指令和一些工具,例如代碼解釋器、檢索和函數(shù)調(diào)用。

wKgZomVMMGaAYhcWAAAAK9URceg522.gif

wKgZomVMMGuAWLawAAn4rvnh4n4651.png

五、多模態(tài)交互

新版本GPT增加多模態(tài)功能,包括視覺(jué)、圖像創(chuàng)建和文本轉(zhuǎn)語(yǔ)音。GPT-4 Turbo可以接受圖像作為輸入,從而實(shí)現(xiàn)生成標(biāo)題、分析現(xiàn)實(shí)世界圖像和閱讀帶圖形文檔等用例。視覺(jué)輸入的定價(jià)根據(jù)圖像大小而定。

此外,OpenAI計(jì)劃為主要GPT-4Turbo模型提供視覺(jué)支持。對(duì)于新版本GPT付費(fèi)用戶,主要功能更新包括更方便地上傳多種格式文件,如PDF、數(shù)據(jù)文件等(未來(lái)將支持更多文件類型)。

GPT-4 Turbo的不同模式具有不同優(yōu)勢(shì)和功能短板,其中多模態(tài)模式可以同時(shí)處理文本、圖像、聲音等多種類型數(shù)據(jù),但僅支持圖片上傳;數(shù)據(jù)分析模式具備較強(qiáng)的數(shù)據(jù)處理和分析能力,但不能實(shí)時(shí)聯(lián)網(wǎng);實(shí)時(shí)聯(lián)網(wǎng)模式和DALL-E則不支持文件上傳。在舊版本中,用戶需要自己選擇模式;在新版本中,GPT-4 Turbo將根據(jù)用戶需求自動(dòng)選擇和編排多個(gè)工具完成任務(wù),向AI智能體角色迭代。

wKgZomVMMGaAYhcWAAAAK9URceg522.gif

wKgaomVMMGyAL6RZAAhgLSjLBsE442.png

云化-調(diào)優(yōu)-調(diào)度

巨頭戰(zhàn)場(chǎng),技術(shù)為骨,通信為魂

一、算力云化:算力租賃勢(shì)起,被 AI 重定義的云計(jì)算

1、AGI 時(shí)代到來(lái),GPU 算力需求爆發(fā),云計(jì)算面臨新挑戰(zhàn)

云計(jì)算是科技行業(yè)過(guò)去十年發(fā)展最迅速領(lǐng)域之一,推動(dòng)全球數(shù)字化程度持續(xù)提升。隨著互聯(lián)網(wǎng)高速發(fā)展和眾多中小型及初創(chuàng)公司對(duì)數(shù)字化需求爆發(fā),自購(gòu)ICT基礎(chǔ)設(shè)施投入巨大且運(yùn)維難度高,不適合具有靈活需求高速發(fā)展長(zhǎng)尾客戶。而通過(guò)云計(jì)算,用戶可以隨時(shí)獲取云上資源,按需使用按需付費(fèi),可無(wú)限擴(kuò)展。云計(jì)算將計(jì)算資源池化,通過(guò)軟件實(shí)現(xiàn)自動(dòng)化管理,提高資源利用效率,并發(fā)展出IaaS、PaaS、SaaS等多種形式,極大地促進(jìn)互聯(lián)網(wǎng)發(fā)展和全球數(shù)字化進(jìn)程。

wKgZomVMMGaAYhcWAAAAK9URceg522.gif

wKgZomVMMGyAZEeEAAfANWGbTQA193.png

云計(jì)算原理圖

隨著OpenAIChatGPT引領(lǐng)的生成式AI的崛起,算力需求正在從CPU向GPU躍遷。企業(yè)人工智能發(fā)展需求爆發(fā),需要支持開(kāi)發(fā)人員創(chuàng)建新一代人工智能應(yīng)用程序的基礎(chǔ)設(shè)施。許多企業(yè)轉(zhuǎn)向云計(jì)算,采用越來(lái)越復(fù)雜的基礎(chǔ)設(shè)施,從GPU到GPU集群,以滿足人工智能模型訓(xùn)練需求。

wKgZomVMMGaAYhcWAAAAK9URceg522.gif

wKgaomVMMG2AOJMvAAXrEl24Rv8017.png

CPU 和 GPU 的對(duì)比

隨著大模型的持續(xù)發(fā)展,如OpenAI的GPT-3擁有1750億個(gè)參數(shù),規(guī)模前所未有,模型迭代需要更大規(guī)模。對(duì)于大模型訓(xùn)練而言,高速互聯(lián)的高性能GPU集群是關(guān)鍵門檻,不僅涉及GPU本身,還包括GPU之間高速互聯(lián)以及與交換機(jī)、光模塊等基礎(chǔ)設(shè)施的互聯(lián)。與此相比,以CPU和存儲(chǔ)服務(wù)器為主傳統(tǒng)基礎(chǔ)設(shè)施明顯不夠,資本開(kāi)支和技術(shù)難度也明顯提升,抬高了進(jìn)入大模型的門檻。

wKgZomVMMGaAYhcWAAAAK9URceg522.gif

wKgZomVMMG2AIvxCAAoVwIJKQQA028.png

英偉達(dá) H100 集群

大模型訓(xùn)練需要大規(guī)模GPU集群進(jìn)行數(shù)月連續(xù)訓(xùn)練,同時(shí)產(chǎn)生大量計(jì)算和數(shù)據(jù)交換需求。與此相比,傳統(tǒng)CPU和存儲(chǔ)集群的內(nèi)部通信互聯(lián)要求明顯提高。在傳統(tǒng)云計(jì)算時(shí)代,高速光模塊和高端交換機(jī)只在超大型數(shù)據(jù)中心核心節(jié)點(diǎn)使用,例如400G和對(duì)應(yīng)的光模塊。但在超算集群中,使用H100集群,第一層便使用400G光模塊,向上則使用800G光模塊和相應(yīng)交換機(jī),網(wǎng)絡(luò)互聯(lián)要求明顯提高。

wKgZomVMMGaAYhcWAAAAK9URceg522.gif

wKgaomVMMG6AAKKoAAevVFp9cRM238.png

英偉達(dá) DGX A100 與 DGX H100 互聯(lián)結(jié)構(gòu)

隨著基礎(chǔ)設(shè)施日益復(fù)雜,宕機(jī)風(fēng)險(xiǎn)增加,維持運(yùn)行需耗費(fèi)更多精力和資源。開(kāi)發(fā)人工智能不僅需要基礎(chǔ)設(shè)施服務(wù),更需要全棧能力。企業(yè)需將所有功能集成到平臺(tái)中:

1)用于開(kāi)發(fā)和部署端到端人工智能工作流的框架和工具,涵蓋數(shù)據(jù)準(zhǔn)備、訓(xùn)練、推理和部署。

2)面向開(kāi)發(fā)人員的平臺(tái),管理從簡(jiǎn)單計(jì)算機(jī)視覺(jué)應(yīng)用到復(fù)雜大型語(yǔ)言模型的所有內(nèi)容。

3)智能編排層和調(diào)度程序,為每個(gè)作業(yè)提供適當(dāng)資源,動(dòng)態(tài)回收和重新分配資源。

4)自動(dòng)化基礎(chǔ)設(shè)施管理,優(yōu)化平臺(tái)性能和正常運(yùn)行時(shí)間,確保每項(xiàng)工作無(wú)憂執(zhí)行。

5)超高帶寬、低延遲網(wǎng)絡(luò)集群,專為多節(jié)點(diǎn)訓(xùn)練設(shè)計(jì),可在多個(gè)加速計(jì)算節(jié)點(diǎn)上并行處理大型人工智能模型。

2、DGX Cloud 發(fā)布,云算力進(jìn)入 GPU 新時(shí)代

英偉達(dá)于2023年3月21日發(fā)布的DGX Cloud改變傳統(tǒng)計(jì)算框架,為現(xiàn)代深度學(xué)習(xí)提供理想環(huán)境。DGX Cloud結(jié)合人工智能和云計(jì)算,旨在為企業(yè)提供最先進(jìn)的AI訓(xùn)練服務(wù)。該平臺(tái)采用NVIDIA DGX SuperPOD架構(gòu),具備分布式訓(xùn)練能力,其速度較不支持NVIDIA網(wǎng)絡(luò)的服務(wù)快兩倍以上。

wKgZomVMMGaAYhcWAAAAK9URceg522.gif

英偉達(dá)的DGX Cloud為現(xiàn)代AI開(kāi)發(fā)樹(shù)立新的標(biāo)桿,是世界上第一個(gè)專用于開(kāi)發(fā)生成式人工智能的平臺(tái)。DGX Cloud是英偉達(dá)針對(duì)傳統(tǒng)IaaS產(chǎn)品在AI時(shí)代面臨的困境而推出的產(chǎn)品,其使用效率是傳統(tǒng)基礎(chǔ)設(shè)施的三倍。DGX Cloud集成NVIDIA基礎(chǔ)命令平臺(tái),簡(jiǎn)化人工智能開(kāi)發(fā)的過(guò)程。

wKgZomVMMGaAYhcWAAAAK9URceg522.gif

wKgaomVMMG-ACHkXAAlFBYHV6Bo438.png

NVIDIA DGX 云人工智能軟件堆棧

DGX Cloud在傳統(tǒng)IaaS上展現(xiàn)出全面領(lǐng)先優(yōu)勢(shì)。其基于NVIDIA DGX技術(shù),為各行業(yè)創(chuàng)新提供加速解決方案。通過(guò)DGX Cloud,企業(yè)可專注于人工智能創(chuàng)新,無(wú)需糾纏于基礎(chǔ)設(shè)施。企業(yè)能夠獲得可靠、快速的資源分配,完全優(yōu)化執(zhí)行工作負(fù)載,并減少所需時(shí)間和精力,從而降低總體擁有成本。根據(jù)英偉達(dá)官網(wǎng)的比較,DGX Cloud相比傳統(tǒng)IaaS服務(wù)具有2-3倍的訓(xùn)練速度優(yōu)勢(shì)和三倍的GPU利用率提升。

wKgZomVMMHCAVvAIAAjvL3n1Qak466.png

NVIDIA DGX 與傳統(tǒng) IaaS 比較優(yōu)勢(shì)明顯

wKgaomVMMHGALX7eABtIRtbTaUo671.png

wKgZomVMMGaAYhcWAAAAK9URceg522.gif

NVIDIA DGX 與傳統(tǒng) IaaS 比較優(yōu)勢(shì)明顯

3、現(xiàn)狀:GPU 禁令,國(guó)產(chǎn)算力進(jìn)程加速,合理分配利用資源重要性突顯

根據(jù)英偉達(dá)2023 年 10 月 23 日向 SEC 提交的 8-K文件,美國(guó)政府已通知英偉達(dá),對(duì)總處理性能為4800或更高的數(shù)據(jù)中心設(shè)計(jì)或銷售產(chǎn)品實(shí)施新的出口管制,并適用于題為“實(shí)施附加出口管制:某些先進(jìn)計(jì)算項(xiàng)目;超級(jí)計(jì)算機(jī)和半導(dǎo)體最終用途;更新和更正”的法規(guī)。受影響的產(chǎn)品包括 A100、A800、H100、H800 和 L40S,這些產(chǎn)品于 10 月 17 日被要求在 30 天后禁售。

隨著高端算力芯片禁令生效,國(guó)內(nèi)AI產(chǎn)業(yè)發(fā)展受到制約。華為、寒武紀(jì)、海光、壁仞、摩爾線程等國(guó)產(chǎn)算力芯片的商業(yè)化和生態(tài)建設(shè)有望加速。科大訊飛與華為昇騰已啟動(dòng)專項(xiàng)攻關(guān),合力打造通用人工智能新底座,華為昇騰910B能力已基本可對(duì)標(biāo)英偉達(dá)A100。

5、跨區(qū)域、跨集群、跨架構(gòu)的算力調(diào)度調(diào)優(yōu)能力日益重要

在大規(guī)模訓(xùn)練中,相比傳統(tǒng)云計(jì)算,需要考慮的問(wèn)題更為復(fù)雜。如何利用多卡突破內(nèi)存限制?如何實(shí)現(xiàn)大量計(jì)算資源的通信和協(xié)作?如何將各種大規(guī)模訓(xùn)練技術(shù)整合成一個(gè)完整高效的方案?因此,大規(guī)模訓(xùn)練技術(shù)的挑戰(zhàn)可歸納為內(nèi)存、通訊、計(jì)算和調(diào)優(yōu)四個(gè)方面。

wKgaomVMMHKAIQ-HAAmkoblO3mo030.png

wKgZomVMMGaAYhcWAAAAK9URceg522.gif

大模型訓(xùn)練四大挑戰(zhàn)

在大模型訓(xùn)練中,數(shù)據(jù)和算力是最核心的兩個(gè)要素。過(guò)去AI的發(fā)展方向是使用少量數(shù)據(jù)和參數(shù)來(lái)構(gòu)建模型,而現(xiàn)在隨著OpenAI現(xiàn)象級(jí)產(chǎn)品出現(xiàn),人們發(fā)現(xiàn)使用海量數(shù)據(jù)和算力訓(xùn)練模型能力有了質(zhì)的飛躍。目前大模型還處于早期階段,未來(lái)大模型的發(fā)展將主要集中在提高參數(shù)數(shù)量和提升算力集群規(guī)模上。

英偉達(dá)作為全球GPU領(lǐng)軍企業(yè),很早就開(kāi)始布局AI領(lǐng)域。回顧英偉達(dá)超算方案,從DGX A100到DGX H100,再到最新的DGX GH200,除GPU算力提升外,通信能力的大幅持續(xù)增長(zhǎng)也非常明顯。在AI領(lǐng)域中,通信作用的重要性不亞于計(jì)算能力。英偉達(dá)早在2019年就收購(gòu)網(wǎng)絡(luò)交換公司Mellanox,以增強(qiáng)其在數(shù)據(jù)中心網(wǎng)絡(luò)交換領(lǐng)域的實(shí)力,這充分體現(xiàn)了英偉達(dá)的超前眼光和對(duì)通信的重視。

以GH200為例,其NVLink提供高達(dá)900GB/s雙向帶寬,單向帶寬為450GB/s。當(dāng)8張卡一起使用時(shí),總帶寬高達(dá)28.8TBps。這些帶寬分?jǐn)偟饺齻€(gè)NVLink Switch上,每個(gè)Switch的上下行帶寬為9.6TBps。這意味著,對(duì)于800G的光模塊來(lái)說(shuō),每個(gè)Switch需要24只。一臺(tái)服務(wù)器中共有72只800G光模塊,GPU與800G光模塊的比例為1:9。相比之下,DGX H100架構(gòu)的GPU與800G光模塊比例約為1:3,而DGX A100主要使用400G光模塊。從英偉達(dá)產(chǎn)品的迭代可以看出,公司在通信方面持續(xù)發(fā)力,以匹配計(jì)算能力的提升。

wKgZomVMMHOAZKvoAAl0rqhvqBY077.png

wKgZomVMMGaAYhcWAAAAK9URceg522.gif

英偉達(dá) DGX GH200,256 個(gè) GPU 組成的完全連接的 NVIDIA NVLink 交換機(jī)系統(tǒng)拓?fù)浣Y(jié)構(gòu)

要高效發(fā)揮算力集群能力,打破通信墻是唯一的選擇。隨著集群中顯卡數(shù)量的增長(zhǎng),如果算力不能線性提升,就無(wú)法充分利用高價(jià)購(gòu)買的GPU能力。目前,最佳的方式是通過(guò)高速互聯(lián)打破通信墻,允許萬(wàn)卡規(guī)模集群中的跨GPU數(shù)據(jù)交換,保證數(shù)據(jù)交換暢通無(wú)阻。提高通信能力是目前最有效的“調(diào)優(yōu)”方式,無(wú)論多么出色的調(diào)度和調(diào)優(yōu),都無(wú)法比擬使用高性能交換機(jī)和高速光模塊構(gòu)建的集群內(nèi)部“高速公路”。

此外,跨架構(gòu)、跨集群的算力調(diào)度也是一個(gè)現(xiàn)實(shí)問(wèn)題。跨區(qū)域算力調(diào)度需求也在增長(zhǎng),例如東數(shù)西算等。在模型訓(xùn)練層面,調(diào)優(yōu)也是一個(gè)重要方面。

二、算力調(diào)優(yōu):大模型時(shí)代,通信即調(diào)優(yōu)

1、算力調(diào)優(yōu)是算力發(fā)展的終身課題

算力調(diào)優(yōu)本質(zhì)上是將有限的算力資源進(jìn)行重新配置并達(dá)到最優(yōu)狀態(tài)。在微觀層面,算力調(diào)優(yōu)關(guān)注模型調(diào)優(yōu),包括減少模型訓(xùn)練和推理時(shí)占用的顯存。在宏觀層面,算力調(diào)優(yōu)涉及模型調(diào)優(yōu)、網(wǎng)絡(luò)調(diào)優(yōu)和算力調(diào)度三個(gè)層次。其中,網(wǎng)絡(luò)調(diào)優(yōu)在大規(guī)模分布式并行訓(xùn)練背景下愈發(fā)重要,高性能網(wǎng)絡(luò)應(yīng)具備超大規(guī)模、超高帶寬和超長(zhǎng)穩(wěn)定三大性能。算力調(diào)度則是將算力作為資源進(jìn)行優(yōu)化分配,解決算力資源供需不匹配問(wèn)題。

wKgaomVMMHSAWpYxAAg2UpWErEU900.png

wKgZomVMMGaAYhcWAAAAK9URceg522.gif

三大算力調(diào)優(yōu)措施針對(duì)解決不同的算力問(wèn)題

算力發(fā)展帶來(lái)三個(gè)重大變化,這促使算力調(diào)優(yōu)成為核心議題。這三個(gè)變化分別是:算力需求總量的增加、算力需求的擴(kuò)散和算力需求的多樣化。

1)隨著5G和AI等產(chǎn)業(yè)的快速發(fā)展,通用算力和智能算力需求都在不斷增加。

通用算力需求因各種應(yīng)用逐漸興起而提升,同時(shí)大數(shù)據(jù)、智能汽車、智慧城市、物聯(lián)網(wǎng)等新業(yè)態(tài)新平臺(tái)出現(xiàn)也加大了通用算力的需求量。而智能算力需求隨著AIGC產(chǎn)業(yè)的迅速發(fā)展,國(guó)內(nèi)大模型訓(xùn)練和推理的快速推進(jìn),智算成為大模型落地不可或缺的生產(chǎn)力之一,需求空間巨大。據(jù)IDC和浪潮預(yù)測(cè),到2026年,國(guó)內(nèi)通用算力規(guī)模將達(dá)到111.3EFLOPS,智能算力規(guī)模將達(dá)到1271.4EFLOPS。

wKgZomVMMHSAZELEAAnd-M2fVh4761.png

wKgZomVMMGaAYhcWAAAAK9URceg522.gif

2019-2026 中國(guó)通用算力規(guī)模及預(yù)測(cè)

2)算力需求最初主要集中在單一設(shè)備上,如計(jì)算機(jī)和工業(yè)智能設(shè)備等。但隨著5G和AI時(shí)代的到來(lái),海量數(shù)據(jù)已經(jīng)擴(kuò)散到各類設(shè)備上,如汽車、公路、城市智慧屏等各類終端都需要數(shù)據(jù)處理能力。

3)隨著數(shù)字經(jīng)濟(jì)的崛起,算力需求逐漸走向多元化。自動(dòng)駕駛的算力需求主要集中在高性能、低延遲和實(shí)時(shí)性上;而生成式AI的算力需求則需要大量GPU并行計(jì)算,主要集中在穩(wěn)定長(zhǎng)時(shí)間輸出能力上;邊緣計(jì)算的算力需求主要在于短距離和低時(shí)延。

2、網(wǎng)絡(luò)調(diào)優(yōu):算力調(diào)優(yōu)的核心手段

1)源起:從 GPU 的通信出發(fā)

在AI時(shí)代GPU成為核心處理器,廣泛應(yīng)用于圖像圖形處理和AI推理。然而,隨著大模型復(fù)雜度不斷提升,單卡GPU顯存有限,難以滿足訓(xùn)練需求。例如,百度文心一言大模型擁有2600億個(gè)參數(shù),而一個(gè)80GB顯存的A800只能存儲(chǔ)10-20億參數(shù),因此需要100-200塊GPU來(lái)存放2600億的模型。此外未來(lái)大模型訓(xùn)練將需要更多的參數(shù)和計(jì)算,進(jìn)一步增加GPU需求。為適應(yīng)算力需求,多張GPU甚至多臺(tái)服務(wù)器需要聯(lián)合工作,分布式訓(xùn)練成為核心訓(xùn)練方式。

wKgaomVMMHWAFXvyAAfFyXxalgw615.png

大模型發(fā)展下對(duì)分布式訓(xùn)練訴求提升

網(wǎng)絡(luò)連接在分布式系統(tǒng)中發(fā)揮重要作用,根據(jù)連接層級(jí)可分為單卡、多卡和多機(jī)互聯(lián)。單卡內(nèi)的網(wǎng)絡(luò)為計(jì)算用的神經(jīng)網(wǎng),多卡之間的連接通常采用PCIe或高帶寬通信網(wǎng)絡(luò),而多機(jī)之間的連接則通常采用RDMA網(wǎng)絡(luò)。

多卡互聯(lián):傳統(tǒng) PCIe 與 NVLINK/CAPI/GenZ/CCIX/CXL 的“百家爭(zhēng)鳴”

總線是數(shù)據(jù)通信中必不可少的通道,PCIe是最廣泛使用的總線協(xié)議。總線是服務(wù)器主板上不同硬件之間進(jìn)行數(shù)據(jù)通信管道,對(duì)數(shù)據(jù)傳輸速度起到?jīng)Q定性作用。PCIe協(xié)議由英特爾于2001年提出,主要用于連接CPU與其他高速設(shè)備如GPU、SSD、網(wǎng)卡、顯卡等。PCIe經(jīng)歷多個(gè)版本的更新,傳輸速率和帶寬不斷提高,目前已經(jīng)更新到6.0版本,傳輸速率高達(dá)64GT/s,16通道的帶寬達(dá)到256GB/s。

wKgZomVMMHeAEMUhAAlDXLVkAgI922.png

wKgZomVMMGaAYhcWAAAAK9URceg522.gif

PCIe6.0 版本的帶寬大幅提高

隨著AIGC的發(fā)展,算力需求大幅增加,GPU多卡組合成為趨勢(shì)。然而,PCIe的數(shù)據(jù)傳輸速率和網(wǎng)絡(luò)延遲無(wú)法滿足這種需求。為提高總線通信效率和降低延遲,各家紛紛推出替代協(xié)議。

CAPI協(xié)議最早由IBM推出,本質(zhì)上是在現(xiàn)有高速I/O標(biāo)準(zhǔn)之上的應(yīng)用程序擴(kuò)展,增加緩存一致性和更低延遲等內(nèi)容。但由于IBM服務(wù)器份額的持續(xù)下降,CAPI協(xié)議缺少用戶基礎(chǔ),最終未能廣泛流傳。

GenZ協(xié)議是一個(gè)不依賴于任何芯片平臺(tái)的開(kāi)放性組織,眾多廠家參與其中,包括AMDARM、IBM、Nvidia、Xilinx等。GenZ將總線協(xié)議拓展成交換式網(wǎng)絡(luò)并加入GenZSwitch,提高拓展性。

CXL協(xié)議于2019年由Intel推出,與CAPI協(xié)議思路類似。2021年底吸收了GenZ協(xié)議共同發(fā)展,2022年兼并了OpenCAPI協(xié)議。CXL具備內(nèi)存接口,逐漸成長(zhǎng)為設(shè)備互連標(biāo)準(zhǔn)的重要主導(dǎo)協(xié)議之一。

CCIX協(xié)議是ARM加入的另一個(gè)開(kāi)放協(xié)議,功能類似GenZ但未被吸收兼并。

NVLINK協(xié)議是英偉達(dá)提出的高速GPU互聯(lián)協(xié)議,相比傳統(tǒng)PCIe總線協(xié)議,NVLINK在三個(gè)方面做出重大改變。首先支持網(wǎng)狀拓?fù)浣Y(jié)構(gòu),解決通道數(shù)量有限問(wèn)題;其次統(tǒng)一內(nèi)存,允許GPU共享公共內(nèi)存池,減少GPU之間復(fù)制數(shù)據(jù)需要,提高效率;最后支持直接內(nèi)存訪問(wèn),不需要CPU參與,GPU可以直接讀取彼此內(nèi)存,從而降低網(wǎng)絡(luò)延遲。此外,為解決GPU之間通訊不均衡問(wèn)題,英偉達(dá)還引入NVSwitch,一種類似于交換機(jī)ASIC的物理芯片,通過(guò)NVLink接口將多個(gè)GPU高速互聯(lián),創(chuàng)建高帶寬多節(jié)點(diǎn)GPU集群。2023年5月29日,英偉達(dá)推出AI超級(jí)計(jì)算機(jī)DGX GH200,通過(guò)NVLink和NVSwitch連接256個(gè)GH200芯片,所有GPU連接成一個(gè)整體協(xié)同運(yùn)行,可訪問(wèn)內(nèi)存突破100TB。

多機(jī)互聯(lián):IB 網(wǎng)絡(luò)與以太網(wǎng)絡(luò)并存

在分布式訓(xùn)練中,RDMA網(wǎng)絡(luò)成為最佳選擇,包括IB網(wǎng)絡(luò)和以太網(wǎng)絡(luò)。傳統(tǒng)的TCP/IP網(wǎng)絡(luò)通信通過(guò)內(nèi)核發(fā)送消息,涉及較多數(shù)據(jù)移動(dòng)和復(fù)制,不適合高性能計(jì)算、大數(shù)據(jù)分析等需要高并發(fā)、低時(shí)延場(chǎng)景。RDMA是一種計(jì)算機(jī)網(wǎng)絡(luò)技術(shù),可直接遠(yuǎn)程訪問(wèn)內(nèi)存數(shù)據(jù),無(wú)需內(nèi)核介入,不占用CPU資源,可顯著提高數(shù)據(jù)傳輸性能并降低延遲,適合大規(guī)模并行計(jì)算機(jī)集群網(wǎng)絡(luò)需求。

目前有三種RDMA:Infiniband、RoCE和iWARP,后兩者基于以太網(wǎng)技術(shù)。Infiniband是專為RDMA設(shè)計(jì)的網(wǎng)絡(luò),從硬件級(jí)別保證可靠傳輸,成本高但帶寬和延遲更優(yōu);RoCE基于以太網(wǎng)做RDMA,可使用普通以太網(wǎng)交換機(jī),成本較低但需要支持RoCE的網(wǎng)卡;iWARP基于TCP的RDMA網(wǎng)絡(luò),利用TCP達(dá)到可靠傳輸,在大型組網(wǎng)中會(huì)占用大量?jī)?nèi)存資源,對(duì)系統(tǒng)規(guī)格要求更高,但也可使用普通以太網(wǎng)交換機(jī)并需要支持iWARP的網(wǎng)卡。

wKgaomVMMHeAVBOPAAVoRFcT7RE365.png

wKgZomVMMGaAYhcWAAAAK9URceg522.gif

RoCE 、iWARP和 InfiniBand 比較

3)現(xiàn)狀:AI 的網(wǎng)絡(luò)新需求

AI大模型訓(xùn)練和推理對(duì)網(wǎng)絡(luò)提出超大規(guī)模、超高帶寬和超長(zhǎng)穩(wěn)定的需求。超大規(guī)模的模型直接影響訓(xùn)練速度,使用更多的GPU可以縮短訓(xùn)練時(shí)間。超高帶寬的Allreduce直接影響大規(guī)模分布式下的整體效率,高帶寬可以獲得更高的加速比。

大模型訓(xùn)練時(shí)長(zhǎng)通常至少為幾個(gè)星期,穩(wěn)定性非常重要,包括GPU可用性和網(wǎng)絡(luò)可用性。在千卡規(guī)模下,如果GPU的月可用性為99.9%,模型訓(xùn)練一月內(nèi)遇到故障發(fā)生中斷的概率較高。網(wǎng)絡(luò)可用性對(duì)于大模型的訓(xùn)練至關(guān)重要,包括數(shù)據(jù)集的讀取以及訓(xùn)練過(guò)程中checkpoint的讀寫,必須保證更高的可用性以減少模型訓(xùn)練中斷。因此,在大規(guī)模分布式AI訓(xùn)練中,需要使用更多的GPU和更高的帶寬,并確保網(wǎng)絡(luò)的可用性和穩(wěn)定性。

OpenAI 在訓(xùn)練過(guò)程中使用 checkpoint 來(lái)保證連續(xù)性。Checkpoint 是訓(xùn)練過(guò)程中保存的已訓(xùn)練模型在特定時(shí)間點(diǎn)的版本,包含模型的權(quán)重、參數(shù)和其他重要信息。加入 checkpoint 后,即使訓(xùn)練中斷,也可以隨時(shí)回到并使用已保存 checkpoint 處的模型,而無(wú)需從頭開(kāi)始訓(xùn)練。此外,checkpoint 還可以提高實(shí)驗(yàn)的可重現(xiàn)性、進(jìn)行模型評(píng)估以及實(shí)現(xiàn)遷移學(xué)習(xí)等功能。

4)未來(lái):網(wǎng)絡(luò)為主,可視化為輔

面對(duì)AI大模型對(duì)算力網(wǎng)絡(luò)通信提出的新需求,提升網(wǎng)絡(luò)通信能力是核心,同時(shí)需要輔助智算可視化等硬件。三大需求(超大規(guī)模、超高帶寬和超長(zhǎng)穩(wěn)定)都強(qiáng)調(diào)網(wǎng)絡(luò)通信能力的提升。優(yōu)化過(guò)程中,網(wǎng)絡(luò)可視化等核心硬件也起到重要作用。

在算力集群中,無(wú)論使用以太網(wǎng)還是InfiniBand協(xié)議構(gòu)建通信網(wǎng)絡(luò),數(shù)據(jù)都以包的形式傳輸。為監(jiān)控網(wǎng)絡(luò)流量,避免擁堵或硬件故障影響系統(tǒng)效率,需要實(shí)時(shí)監(jiān)測(cè)每條通信鏈路的狀態(tài)。如在三層網(wǎng)絡(luò)架構(gòu)中,有一種名為DPFR(Data Plane Fast Recovery)的經(jīng)典優(yōu)化方法,可以實(shí)現(xiàn)毫秒級(jí)收斂。DPFR分為本地快速收斂和遠(yuǎn)端快速收斂。本地收斂是指葉交換機(jī)掌握指揮權(quán),可以自行選擇要訪問(wèn)的脊交換機(jī);遠(yuǎn)端收斂是指脊交換機(jī)掌握指揮權(quán),如果該交換機(jī)南向通道故障,脊交換機(jī)可以向正常運(yùn)行的葉交換機(jī)發(fā)送故障報(bào)文,指揮葉交換機(jī)切換線路。

wKgZomVMMHiALEXRAAmS54WKlB0482.png

wKgZomVMMGaAYhcWAAAAK9URceg522.gif

DPFR 本地快速收斂(上)和遠(yuǎn)端快速收斂(下)

網(wǎng)絡(luò)調(diào)優(yōu)的核心是利用軟件或硬件技術(shù)抓取數(shù)據(jù)包進(jìn)行分析。數(shù)據(jù)包嗅探抓取分為軟件實(shí)現(xiàn)和硬件實(shí)現(xiàn)兩種方式。常用的軟件實(shí)現(xiàn)包括Wireshark(處理TCP/UDP)、Fiddler(處理HTTP/HTTPS)、tcpdump&windump、solarwinds、nast、Kismet等。

軟件抓包會(huì)消耗部分系統(tǒng)性能。首先,混雜模式下的網(wǎng)卡處于“廣播模式”,需要處理網(wǎng)絡(luò)下層收發(fā)的所有數(shù)據(jù)包,這本身就會(huì)消耗一部分網(wǎng)卡性能。其次,軟件抓包需要復(fù)制和存儲(chǔ)數(shù)據(jù)包,會(huì)占用一部分CPU和存儲(chǔ)資源。同時(shí),像Wireshark這種軟件大多只能監(jiān)控系統(tǒng)內(nèi)單一網(wǎng)絡(luò)節(jié)點(diǎn)的流量,難以覆蓋全局網(wǎng)絡(luò),更適合被動(dòng)故障排除作業(yè),而不適用于主動(dòng)風(fēng)險(xiǎn)監(jiān)測(cè)。

為確保不影響系統(tǒng)整體性能,并行或串行接入的軟硬件結(jié)合工具應(yīng)運(yùn)而生,其中常用的包括DPI和DFI。DPI(深度報(bào)文檢測(cè))是一種基于報(bào)文應(yīng)用層信息進(jìn)行流量檢測(cè)和控制的功能,著重分析應(yīng)用層,能夠識(shí)別各種應(yīng)用及其內(nèi)容。當(dāng)IP數(shù)據(jù)包、TCP或UDP數(shù)據(jù)流經(jīng)過(guò)支持DPI技術(shù)硬件設(shè)備時(shí),設(shè)備會(huì)深入讀取報(bào)文載荷進(jìn)行分析和重組,識(shí)別應(yīng)用程序內(nèi)容,然后根據(jù)設(shè)備定義的管理策略對(duì)流量進(jìn)行后續(xù)處理。DFI(深度/動(dòng)態(tài)流檢測(cè))采用基于流量行為應(yīng)用識(shí)別技術(shù),即不同應(yīng)用類型在會(huì)話連接或數(shù)據(jù)流上的狀態(tài)各不相同。DPI技術(shù)適用于需要精細(xì)和準(zhǔn)確識(shí)別、精細(xì)管理的環(huán)境;而DFI技術(shù)適用于需要高效識(shí)別、粗放管理的環(huán)境。

wKgaomVMMHiASdNXAAePM0puwxM700.png

DPI 和 DFI 的流程比較

DPI/DFI由獨(dú)立硬件串/并接在物理層,對(duì)物理層性能無(wú)影響。以浩瀚深度的DPI軟硬件產(chǎn)品為例,可部署在電信網(wǎng)絡(luò)各層級(jí)節(jié)點(diǎn),通過(guò)SaaS/PaaS實(shí)現(xiàn)數(shù)據(jù)收集、分析和呈現(xiàn)。DPI硬件串接或并接在通信物理層,通過(guò)鏡像數(shù)據(jù)包實(shí)現(xiàn)無(wú)損網(wǎng)絡(luò)監(jiān)測(cè)。DPI軟件可嵌入DPI硬件、獨(dú)立服務(wù)器或交換機(jī)/路由器中,實(shí)現(xiàn)網(wǎng)絡(luò)監(jiān)測(cè)。

網(wǎng)絡(luò)可視化是一種高效流量監(jiān)控工具。通過(guò)SaaS/PaaS,可以實(shí)現(xiàn)對(duì)各層級(jí)DPI監(jiān)測(cè)節(jié)點(diǎn)的數(shù)據(jù)收集、分析和呈現(xiàn),將這些網(wǎng)絡(luò)數(shù)據(jù)以客戶和應(yīng)用所需的方式展示出來(lái),幫助用戶準(zhǔn)確掌握網(wǎng)絡(luò)運(yùn)行情況以及其中的有價(jià)值信息。結(jié)合大數(shù)據(jù)分析與挖掘、多維度數(shù)據(jù)關(guān)聯(lián)分析、流量控制和管理等手段,實(shí)現(xiàn)網(wǎng)絡(luò)管理、信息安全和商業(yè)智能的一類應(yīng)用系統(tǒng),通常稱為網(wǎng)絡(luò)視化。

5)模型調(diào)優(yōu)

模型層面調(diào)優(yōu)和軟件層面調(diào)優(yōu)不同于傳統(tǒng)性能優(yōu)化,如游戲或軟件的優(yōu)化。在當(dāng)前模型快速迭代、參數(shù)競(jìng)爭(zhēng)激烈的情況下,削減參數(shù)、減少GPU集群訓(xùn)練時(shí)間或算力總量并不是主要關(guān)注問(wèn)題。頭部玩家更關(guān)心如何讓重金投入的GPU集群充分發(fā)揮其算力,以實(shí)現(xiàn)更快模型迭代和參數(shù)擴(kuò)展。因此,模型層面的調(diào)優(yōu)可以理解為如何通過(guò)設(shè)計(jì)模型架構(gòu)來(lái)最大化GPU性能,而非壓縮非必要環(huán)節(jié)以節(jié)省算力。

AI模型訓(xùn)練主要基于Tensor Flow和PyTorch兩個(gè)框架。這些框架提供AI訓(xùn)練所需的操作系統(tǒng)、工具和運(yùn)算流程,同時(shí)也提供優(yōu)化GPU使用的完善框架。模型訓(xùn)練過(guò)程類似于生產(chǎn)線,每層訓(xùn)練步驟對(duì)應(yīng)生產(chǎn)線上一個(gè)工序。優(yōu)化GPU使用的方法主要是并行處理,即對(duì)流水線任務(wù)進(jìn)行分配或優(yōu)化。

模型層面的并行主要有兩種:數(shù)據(jù)并行和模型并行。數(shù)據(jù)并行是指將一層模型運(yùn)算所需的數(shù)據(jù)分配到多張顯卡上進(jìn)行計(jì)算,然后匯總結(jié)果進(jìn)行下一層運(yùn)算。而模型并行是將一次訓(xùn)練所需的多個(gè)運(yùn)算步驟分別放在多張顯卡上進(jìn)行計(jì)算,但隨著模型體積不斷增大,單個(gè)顯卡難以承載完整的計(jì)算任務(wù),因此模型并行正在逐漸被數(shù)據(jù)并行所取代。數(shù)據(jù)并行的瓶頸在于數(shù)據(jù)的實(shí)時(shí)切分和通信,進(jìn)一步突顯了通信能力的重要性。

wKgZomVMMHmAOVPeAA4sen7Crno820.png

wKgZomVMMGaAYhcWAAAAK9URceg522.gif

數(shù)據(jù)并行

除框架或訓(xùn)練原理自帶并行能力外,專用訓(xùn)練調(diào)優(yōu)工具也進(jìn)一步方便用戶使用。目前,全球模型訓(xùn)練者主要使用微軟提供的開(kāi)源工具庫(kù)DeepSpeed來(lái)進(jìn)行訓(xùn)練調(diào)優(yōu)。DeepSpeed通過(guò)預(yù)處理訓(xùn)練數(shù)據(jù)等方式,優(yōu)化了數(shù)據(jù)進(jìn)入GPU的效率和所需空間,從而為發(fā)揮GPU集群性能或提高小GPU訓(xùn)練上限提供解決方案。

wKgaomVMMHqAfuTsAA71DpHnb7I391.png

DeepSpeed

利用框架和DeepSpeed兩大工具進(jìn)行模型調(diào)優(yōu)后,積累的經(jīng)驗(yàn)將加深各大模型廠商的訓(xùn)練能力壁壘,提高訓(xùn)練效率和性能。隨著大模型時(shí)代的到來(lái),模型算法層面的優(yōu)化和算力、金錢性價(jià)比的追求日漸式微,而重參數(shù)、數(shù)據(jù)、算力堆疊被認(rèn)為是通向AGI的必經(jīng)之路。因此,模型層面的進(jìn)化更多地發(fā)生在如何更好地調(diào)用GPU算力的訓(xùn)練系統(tǒng)和工具庫(kù)層面。

三、算力調(diào)度:全局最強(qiáng)輔助

1、算力調(diào)度是什么?

算力調(diào)度是將算力作為資源進(jìn)行分配和優(yōu)化的過(guò)程,實(shí)現(xiàn)算力靈活流動(dòng),解決算力供需矛盾、網(wǎng)絡(luò)傳輸問(wèn)題和資源普惠問(wèn)題。根據(jù)供給能力和動(dòng)態(tài)需求,進(jìn)行算力資源整合和分配,涉及基礎(chǔ)設(shè)施底層計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等多維資源統(tǒng)一管理和調(diào)度。

wKgZomVMMHqAJO56AAhwLuWP8zI913.png

wKgZomVMMGaAYhcWAAAAK9URceg522.gif

智能調(diào)度和智能管理算力量化&交易圖

2、算力在哪里調(diào)度?

算力調(diào)度適用于多種場(chǎng)景,包括云與云之間、云和數(shù)據(jù)中心之間、云網(wǎng)端之間,以及按行業(yè)、地區(qū)、層級(jí)劃分。其中,跨區(qū)域調(diào)度和跨層級(jí)調(diào)度是較為典型的兩個(gè)場(chǎng)景。跨區(qū)域調(diào)度是指實(shí)現(xiàn)東西部算力協(xié)同,打通需求估計(jì)不足的算力資源,以實(shí)現(xiàn)算力資源跨區(qū)域調(diào)度。而跨層級(jí)調(diào)度則是指將算力資源協(xié)調(diào)應(yīng)用于云、邊緣、終端等不同層級(jí),實(shí)現(xiàn)算力靈活調(diào)度和優(yōu)化分配。

wKgaomVMMHuAXxbeAAfclQ9BIwQ223.png

wKgZomVMMGaAYhcWAAAAK9URceg522.gif

算力調(diào)度場(chǎng)景分布

3、如何實(shí)施?

算力調(diào)度目前尚處于逐步落地階段,具體實(shí)施步驟有待在執(zhí)行中逐漸完善。根據(jù)算力分布分散、需求具備多樣性和靈活性等特質(zhì),通常算力調(diào)度需要包含三個(gè)核心步驟:

1)整合多元異構(gòu)資源

對(duì)底層算力資源進(jìn)行標(biāo)準(zhǔn)化,建立度量模型和評(píng)估標(biāo)準(zhǔn),摸清算力調(diào)度區(qū)域的設(shè)施和資源情況,整合不同所有方的閑置資源;

2)搭建算力調(diào)度平臺(tái)

整合實(shí)時(shí)感知、供需匹配、智能調(diào)度、服務(wù)運(yùn)營(yíng)和監(jiān)測(cè)管理等多種功能,根據(jù)資源分布情況動(dòng)態(tài)計(jì)算最佳調(diào)度策略,實(shí)現(xiàn)統(tǒng)一的算力交易和售賣;

3)建立標(biāo)準(zhǔn)規(guī)范體系

包括算力交易、管理和安全規(guī)則,涉及產(chǎn)品定價(jià)、自動(dòng)結(jié)算、賬本記錄、權(quán)利義務(wù)和可信服務(wù)機(jī)制。

4、誰(shuí)在參與?

算力調(diào)度平臺(tái)作為算網(wǎng)大腦,在算力發(fā)展中后期的重要性將進(jìn)一步提升。目前,國(guó)內(nèi)已經(jīng)涌現(xiàn)多個(gè)算力調(diào)度平臺(tái),按主導(dǎo)方可分為四大類,其中運(yùn)營(yíng)商算力調(diào)度平臺(tái)的基礎(chǔ)能力較為顯著。這些平臺(tái)包括電信運(yùn)營(yíng)商主導(dǎo)平臺(tái)、地方政府主導(dǎo)平臺(tái)、企業(yè)主導(dǎo)平臺(tái)和行業(yè)機(jī)構(gòu)主導(dǎo)型平臺(tái)。不同平臺(tái)的優(yōu)勢(shì)和特點(diǎn)各不相同,但都致力于整合和優(yōu)化算力資源的分配。

其中,中國(guó)電信、中國(guó)移動(dòng)、中國(guó)聯(lián)通等運(yùn)營(yíng)商在算力調(diào)度方面具有強(qiáng)大的網(wǎng)絡(luò)基礎(chǔ)設(shè)施和資源整合能力,能夠?qū)崿F(xiàn)算力資源的高速互聯(lián)和數(shù)據(jù)傳輸?shù)姆€(wěn)定運(yùn)行。此外,一些互聯(lián)網(wǎng)和科技巨頭企業(yè)也在算力調(diào)度方面進(jìn)行了積極探索和實(shí)踐,如阿里云、中科曙光等。同時(shí),行業(yè)機(jī)構(gòu)也在推動(dòng)算力調(diào)度平臺(tái)的發(fā)展,如中國(guó)信通院聯(lián)合中國(guó)電信發(fā)布的一體化算力算網(wǎng)調(diào)度平臺(tái)等。

軟件服務(wù)

海外先行,百花齊放,部署先行

軟件服務(wù)的三個(gè)方向:數(shù)據(jù)管理、模型落地、訓(xùn)練可視化

一、數(shù)據(jù)管理

模型微調(diào)的基礎(chǔ)是優(yōu)質(zhì)、結(jié)構(gòu)化的數(shù)據(jù)管理,推動(dòng)大模型訓(xùn)練向高精度、高安全和垂直專業(yè)化發(fā)展。現(xiàn)有的開(kāi)源 LLM 是“預(yù)訓(xùn)練模型”,即已收集大量訓(xùn)練數(shù)據(jù)并提前訓(xùn)練模型,如 NVIDIA NeMo 和 MetaLlama 能流利使用各種語(yǔ)言,對(duì)各種話題有一定了解,但受訓(xùn)練數(shù)據(jù)限制,對(duì)某些專業(yè)領(lǐng)域不夠深入。以 Snowflake 為例,該平臺(tái)支持客戶使用自己的數(shù)據(jù)集進(jìn)行模型的進(jìn)一步訓(xùn)練和微調(diào),以保證定制的模型在特定領(lǐng)域做到專精。Snowflake 子公司 Applica 憑借 TILT(Text-Image-Layout-Transformer)模型,專精于智能文檔。

二、模型落地

Modular Mojo 是一種下一代設(shè)計(jì)模型和加速庫(kù)設(shè)計(jì)語(yǔ)言。其通過(guò)創(chuàng)建 Mojo 編程語(yǔ)言,利用 Python 的語(yǔ)法和社區(qū)生態(tài),以及 MILR(一種開(kāi)源編譯器),針對(duì) AI 開(kāi)發(fā)中的異構(gòu)計(jì)算和 Python 的多線程編譯問(wèn)題進(jìn)行優(yōu)化。

OctoML 是一種模型部署工具,能夠快速實(shí)現(xiàn)成品模型在各種算力設(shè)備上的優(yōu)化和部署。以 OctoML 部署的 StableDiffusion 為例,OctoML 利用機(jī)器學(xué)習(xí)優(yōu)化技術(shù)能夠?qū)崿F(xiàn)三倍的推理速度,支持快速模型微調(diào)。

OctoML 優(yōu)化多 GPU 部署和連續(xù)批處理,Llama2 實(shí)現(xiàn) 3 倍性能提升。隨著大模型參數(shù)量增加,GPU 負(fù)載并非線性增長(zhǎng),而是呈指數(shù)增長(zhǎng)。因?yàn)閰?shù)數(shù)量的提升帶來(lái)多 GPU 并行計(jì)算問(wèn)題和大模型最為經(jīng)典的 KV 緩存問(wèn)題。針對(duì)這些問(wèn)題,OctoAI 進(jìn)行優(yōu)化。

wKgZomVMMHuAcqY7AAhsZt9gYck526.png

wKgZomVMMGaAYhcWAAAAK9URceg522.gif

OctoAI 多 GPU 跑分結(jié)果

Deci 致力于模型部署層面的優(yōu)化和小模型功能的提升。DeciLM 解碼器的 Transformer 具備可變的 Grouped-Query Attention(GQA)能力,即能夠改變不同 Transformer 層的 attention 組、鍵值和數(shù)值的數(shù)量。DeciLM 是首個(gè)在 Transformer 層結(jié)構(gòu)上實(shí)現(xiàn)互不重復(fù)的語(yǔ)言模型。60 億參數(shù)的 DeciLM 模型在性能上超越 PyTorch 的 70 億參數(shù) Llama2。

wKgZomVMMGaAYhcWAAAAK9URceg522.gif

wKgaomVMMHyAMiJUAAdfnpvRquw452.png

DeciLM 與 Llama2 在 token 生成上的性能對(duì)比

三、訓(xùn)練可視化

Databricks 是一款 GPU 資源管理工具,提供模型和訓(xùn)練進(jìn)度的可視化功能。其核心業(yè)務(wù)是將數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)統(tǒng)一到一個(gè)平臺(tái),即湖倉(cāng)一體。與 Snowflake 類似,在數(shù)據(jù)庫(kù)功能實(shí)現(xiàn)方式上存在一定的差異。通過(guò) Lakehouse AI 的算力集群資源管理,開(kāi)發(fā)者可以更好地進(jìn)行模型訓(xùn)練和推理的監(jiān)控。Databricks Lakehouse Monitoring 通過(guò)監(jiān)控?cái)?shù)據(jù)管道和訓(xùn)練管道來(lái)實(shí)現(xiàn) LLM 的性能和質(zhì)量管理,并創(chuàng)建可視化界面。

wKgZomVMMGaAYhcWAAAAK9URceg522.gif

wKgaomVMMH2AY_GzAAq3oxCaJV0231.png

Databricks Lakehouse Monitoring 幫助開(kāi)發(fā)者監(jiān)控模型的訓(xùn)練推理

藍(lán)海大腦大模型訓(xùn)練平臺(tái)

藍(lán)海大腦大模型訓(xùn)練平臺(tái)提供強(qiáng)大的算力支持,包括基于開(kāi)放加速模組高速互聯(lián)的AI加速器。配置高速內(nèi)存且支持全互聯(lián)拓?fù)洌瑵M足大模型訓(xùn)練中張量并行的通信需求。支持高性能I/O擴(kuò)展,同時(shí)可以擴(kuò)展至萬(wàn)卡AI集群,滿足大模型流水線和數(shù)據(jù)并行的通信需求。強(qiáng)大的液冷系統(tǒng)熱插拔及智能電源管理技術(shù),當(dāng)BMC收到PSU故障或錯(cuò)誤警告(如斷電、電涌,過(guò)熱),自動(dòng)強(qiáng)制系統(tǒng)的CPU進(jìn)入U(xiǎn)LFM(超低頻模式,以實(shí)現(xiàn)最低功耗)。致力于通過(guò)“低碳節(jié)能”為客戶提供環(huán)保綠色的高性能計(jì)算解決方案。主要應(yīng)用于深度學(xué)習(xí)、學(xué)術(shù)教育、生物醫(yī)藥、地球勘探、氣象海洋、超算中心、AI及大數(shù)據(jù)等領(lǐng)域。

構(gòu)建基于英偉達(dá)GPU的全場(chǎng)景AI基礎(chǔ)設(shè)施方案,適用于“端、邊、云”等各種應(yīng)用環(huán)境。幫助開(kāi)發(fā)者更快速、更高效地構(gòu)建和部署AI應(yīng)用。

wKgZomVMMGaAYhcWAAAAK9URceg522.gif

一、為什么需要大模型?

1、模型效果更優(yōu)

大模型在各場(chǎng)景上的效果均優(yōu)于普通模型。

2、創(chuàng)造能力更強(qiáng)

大模型能夠進(jìn)行內(nèi)容生成(AIGC),助力內(nèi)容規(guī)模化生產(chǎn)。

3、靈活定制場(chǎng)景

通過(guò)舉例子的方式,定制大模型海量的應(yīng)用場(chǎng)景。

4、標(biāo)注數(shù)據(jù)更少

通過(guò)學(xué)習(xí)少量行業(yè)數(shù)據(jù),大模型就能夠應(yīng)對(duì)特定業(yè)務(wù)場(chǎng)景的需求。

wKgZomVMMGaAYhcWAAAAK9URceg522.gifwKgZomVMMGaAYhcWAAAAK9URceg522.gif

二、平臺(tái)特點(diǎn)

1、異構(gòu)計(jì)算資源調(diào)度

一種基于通用服務(wù)器和專用硬件的綜合解決方案,用于調(diào)度和管理多種異構(gòu)計(jì)算資源,包括CPU、GPU等。通過(guò)強(qiáng)大的虛擬化管理功能,能夠輕松部署底層計(jì)算資源,并高效運(yùn)行各種模型。同時(shí)充分發(fā)揮不同異構(gòu)資源的硬件加速能力,以加快模型的運(yùn)行速度和生成速度。

2、穩(wěn)定可靠的數(shù)據(jù)存儲(chǔ)

支持多存儲(chǔ)類型協(xié)議,包括塊、文件和對(duì)象存儲(chǔ)服務(wù)。將存儲(chǔ)資源池化實(shí)現(xiàn)模型和生成數(shù)據(jù)的自由流通,提高數(shù)據(jù)的利用率。同時(shí)采用多副本、多級(jí)故障域和故障自恢復(fù)等數(shù)據(jù)保護(hù)機(jī)制,確保模型和數(shù)據(jù)的安全穩(wěn)定運(yùn)行。

3、高性能分布式網(wǎng)絡(luò)

提供算力資源的網(wǎng)絡(luò)和存儲(chǔ),并通過(guò)分布式網(wǎng)絡(luò)機(jī)制進(jìn)行轉(zhuǎn)發(fā),透?jìng)魑锢砭W(wǎng)絡(luò)性能,顯著提高模型算力的效率和性能。

4、全方位安全保障

在模型托管方面,采用嚴(yán)格的權(quán)限管理機(jī)制,確保模型倉(cāng)庫(kù)的安全性。在數(shù)據(jù)存儲(chǔ)方面,提供私有化部署和數(shù)據(jù)磁盤加密等措施,保證數(shù)據(jù)的安全可控性。同時(shí),在模型分發(fā)和運(yùn)行過(guò)程中,提供全面的賬號(hào)認(rèn)證和日志審計(jì)功能,全方位保障模型和數(shù)據(jù)的安全性。

三、常用配置

1、CPU:

Intel Xeon Gold 8358P 32C/64T 2.6GHz 48MB,DDR4 3200,Turbo,HT 240W

Intel Xeon Platinum 8350C 32C/64T 2.6GHz 48MB,DDR4 3200,Turbo,HT 240W

Intel Xeon Platinum 8458P 28C/56T 2.7GHz 38.5MB,DDR4 2933,Turbo,HT 205W

Intel Xeon Platinum 8468 Processor 48C/64T 2.1GHz 105M Cache 350W

AMD EPYC? 7742 64C/128T,2.25GHz to 3.4GHz,256MB,DDR4 3200MT/s,225W

AMD EPYC? 9654 96C/192T,2.4GHz to 3.55GHz to 3.7GHz,384MB,DDR5 4800MT/s,360W

2、GPU:

NVIDIA L40S GPU 48GB

NVIDIA NVLink-A100-SXM640GB

NVIDIA HGX A800 80GB

NVIDIA Tesla H800 80GB HBM2

NVIDIA A800-80GB-400Wx8-NvlinkSW×8

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • Turbo
    +關(guān)注

    關(guān)注

    1

    文章

    58

    瀏覽量

    19364
  • GPT
    GPT
    +關(guān)注

    關(guān)注

    0

    文章

    368

    瀏覽量

    15905
  • 超算
    +關(guān)注

    關(guān)注

    1

    文章

    117

    瀏覽量

    9292
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2990

    瀏覽量

    3757
收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    華為助力湖北移動(dòng)打造“九州”互聯(lián)網(wǎng)區(qū)域標(biāo)桿

    數(shù)字經(jīng)濟(jì)時(shí)代力是關(guān)鍵新質(zhì)生產(chǎn)力,中國(guó)移動(dòng)“九州”互聯(lián)網(wǎng)是促進(jìn)力大規(guī)模調(diào)度運(yùn)營(yíng)的網(wǎng)絡(luò)基礎(chǔ)
    的頭像 發(fā)表于 05-13 16:11 ?208次閱讀

    華為助力中國(guó)移動(dòng)全面升級(jí)“九州”互聯(lián)網(wǎng)

    在中國(guó)移動(dòng)云智大會(huì)期間,以“智啟新,安全筑基“為主題的智基礎(chǔ)設(shè)施及安全峰會(huì)成功舉辦。會(huì)上,中國(guó)移動(dòng)聯(lián)合華為等重磅發(fā)布了《“九州”
    的頭像 發(fā)表于 04-14 16:46 ?418次閱讀

    阿里最新消息:國(guó)家互聯(lián)網(wǎng)平臺(tái)、廣州力中心、多所高校接入通義千問(wèn)大模型

    ? 國(guó)家互聯(lián)網(wǎng)平臺(tái) 接入阿里通義千問(wèn)大模型 ? 3月10日,國(guó)家
    的頭像 發(fā)表于 03-14 11:54 ?616次閱讀

    用PaddleNLP在4060單卡上實(shí)踐大模型預(yù)訓(xùn)練技術(shù)

    手把手教您如何在單張消費(fèi)級(jí)顯卡上,利用PaddleNLP實(shí)踐OpenAI的GPT-2模型的預(yù)訓(xùn)練GPT-2的預(yù)訓(xùn)練關(guān)鍵技術(shù)與流程與
    的頭像 發(fā)表于 02-19 16:10 ?790次閱讀
    用PaddleNLP在4060單卡上實(shí)踐大<b class='flag-5'>模型</b>預(yù)<b class='flag-5'>訓(xùn)練</b>技術(shù)

    國(guó)家互聯(lián)網(wǎng)平臺(tái)上線多款A(yù)I模型

    隨著AI技術(shù)的迅猛發(fā)展,國(guó)家互聯(lián)網(wǎng)平臺(tái)緊跟時(shí)代步伐,近日正式上線了多款先進(jìn)的AI模型。 據(jù)悉,該平臺(tái)已推出的DeepSeek-R1系列
    的頭像 發(fā)表于 02-06 14:50 ?352次閱讀

    xgboost參數(shù)調(diào)優(yōu)技巧 xgboost在圖像分類中的應(yīng)用

    的成績(jī)。然而,XGBoost模型涉及眾多參數(shù),這些參數(shù)的組合和調(diào)優(yōu)對(duì)于模型性能至關(guān)重要。以下是一些XGBoost
    的頭像 發(fā)表于 01-31 15:16 ?858次閱讀

    訊飛星火大模型技術(shù)進(jìn)展及落地

    訊飛星火4.0 Turbo重磅發(fā)布,七大核心能力全面超過(guò)GPT-4 Turbo,數(shù)學(xué)和代碼能力超越GPT-4o,國(guó)內(nèi)外中英文14項(xiàng)主流測(cè)試集
    的頭像 發(fā)表于 10-27 15:50 ?1944次閱讀

    訊飛星火大模型4.0 Turbo正式發(fā)布

    近日,2024科大訊飛全球1024開(kāi)發(fā)者節(jié)正式開(kāi)幕。在數(shù)千名行業(yè)領(lǐng)袖、專家學(xué)者與開(kāi)發(fā)者的共同見(jiàn)證下,訊飛星火大模型4.0 Turbo正式發(fā)布。七大核心能力全面超過(guò)GPT-4
    的頭像 發(fā)表于 10-27 15:47 ?888次閱讀

    Llama 3 與 GPT-4 比較

    隨著人工智能技術(shù)的飛速發(fā)展,我們見(jiàn)證了一代又一代的AI模型不斷突破界限,為各行各業(yè)帶來(lái)革命性的變化。在這場(chǎng)技術(shù)競(jìng)賽中,Llama 3和GPT-4作為兩個(gè)備受矚目的模型,它們代表了當(dāng)前AI領(lǐng)域的最前
    的頭像 發(fā)表于 10-27 14:17 ?999次閱讀

    科大訊飛發(fā)布訊飛星火4.0 Turbo:七大能力GPT-4 Turbo

    超過(guò)GPT-4 Turbo,數(shù)學(xué)能力和代碼能力更是超過(guò)了Open AI最新一代GPT模型GPT-4o。此外,其效率相對(duì)提升50%。
    的頭像 發(fā)表于 10-24 11:39 ?886次閱讀

    澎峰科技受邀出席國(guó)家互聯(lián)網(wǎng)生態(tài)沙龍

    “國(guó)家互聯(lián)網(wǎng)生態(tài)沙龍”在長(zhǎng)沙舉行,由國(guó)家互聯(lián)網(wǎng)聯(lián)合體舉辦,本次沙龍聚焦工業(yè)數(shù)智化創(chuàng)新發(fā)展
    的頭像 發(fā)表于 09-29 10:13 ?623次閱讀

    模型時(shí)代力需求

    現(xiàn)在AI已進(jìn)入大模型時(shí)代,各企業(yè)都爭(zhēng)相部署大模型,但如何保證大模型力,以及相關(guān)的穩(wěn)定性和性能,是一個(gè)極為重要的問(wèn)題,帶著這個(gè)極為重要的問(wèn)
    發(fā)表于 08-20 09:04

    OpenAI推出新模型CriticGPT,用GPT-4自我糾錯(cuò)

    基于GPT-4模型——CriticGPT,這款模型專為捕獲ChatGPT代碼輸出中的錯(cuò)誤而設(shè)計(jì),其獨(dú)特的作用在于,讓人們能夠用GPT-4來(lái)查找GP
    的頭像 發(fā)表于 06-29 09:55 ?766次閱讀

    OpenAI API Key獲取:開(kāi)發(fā)人員申請(qǐng)GPT-4 API Key教程

    ? OpenAI的GPT-4模型因其卓越的自然語(yǔ)言理解和生成能力,成為了許多開(kāi)發(fā)者的首選工具。獲取GPT-4 API Key并將其應(yīng)用于項(xiàng)目,如開(kāi)發(fā)一個(gè)ChatGPT聊天應(yīng)用,不僅是實(shí)踐人工智能技術(shù)
    的頭像 發(fā)表于 06-24 17:40 ?3568次閱讀
    OpenAI API Key獲取:開(kāi)發(fā)人員申請(qǐng)<b class='flag-5'>GPT-4</b> API Key教程

    開(kāi)發(fā)者如何調(diào)用OpenAI的GPT-4o API以及價(jià)格詳情指南

    ?目前,OpenAI新模型GPT-4o和GPT-4 Turbo的價(jià)格如下: GPT-4o 對(duì)比 GPT-
    的頭像 發(fā)表于 05-29 16:00 ?1.6w次閱讀
    開(kāi)發(fā)者如何調(diào)用OpenAI的<b class='flag-5'>GPT-4</b>o API以及價(jià)格詳情指南
    主站蜘蛛池模板: 免费一级特黄特色大片在线 | 色网站在线 | 亚洲qingse中文字幕久久 | 天天摸夜夜添夜夜添国产 | 激情四月婷婷 | 色惰网站 | 亚洲高清美女一区二区三区 | 91九色porny蝌蚪 | 中国一级特黄特色真人毛片 | 中文三级视频 | 天天摸天天看天天爽 | 性欧美护士18xxxxhd | 国产手机免费视频 | 久久婷婷国产综合精品 | 黄色一级视频网 | 天天射天天摸 | 欧美人与zoxxxx | aaaaa特级毛片 | 毛片爽爽爽免费看 | aa1在线天堂 | 日本久操 | 久久深夜福利 | 天天射天天操天天 | 欧美zooz人禽交免费 | 亚洲人免费视频 | 免费看大美女大黄大色 | 2019天天射干 | 五月四房婷婷 | 欧美一级高清片在线 | 成人a毛片高清视频 | 福利天堂 | 国产夜夜爽 | 日本zzzwww大片免费 | 自拍你懂的 | 久久好色 | 3344a毛片在线看 | 国产精品夜色7777青苹果 | 手机看片自拍自自拍日韩免费 | 一区二区中文字幕亚洲精品 | 加勒比一区二区 | 成人羞羞视频国产 |