Q應(yīng)對(duì) AI 發(fā)展帶來(lái)的計(jì)算挑戰(zhàn),什么樣的處理器才是最佳選擇?
為長(zhǎng)期運(yùn)行的計(jì)算密集型 AI 訓(xùn)練和大規(guī)模 AI 推理選擇合適的 CPU 或 GPU,本質(zhì)上是要為您的應(yīng)用選擇適宜的計(jì)算解決方案。相比傳統(tǒng) x86 處理器成本高、能耗大,最新的 Ampere 云原生處理器助力打造高能效、高性能的 AI 推理應(yīng)用,是其理想的替代方案,同時(shí)也是用于 AI 訓(xùn)練和大語(yǔ)言模型(LLM)推理 GPU 的高性價(jià)比之選。
從 20 世紀(jì) 50 年代的首個(gè)實(shí)例,到如今更為復(fù)雜的機(jī)器學(xué)習(xí)、深度學(xué)習(xí),甚至是生成式 AI 技術(shù),高性能計(jì)算的需求始終是驅(qū)動(dòng) AI 計(jì)算發(fā)展的引擎,但模型的研究和訓(xùn)練往往需要投入高昂的成本。
目前,AI 技術(shù)已進(jìn)入廣泛應(yīng)用的階段,也出現(xiàn)了為 AI 推理超額配置計(jì)算的情況,這導(dǎo)致了高昂的成本支出(無(wú)論是硬件的單位成本,還是硬件運(yùn)行的電力成本)。因此,為不同類型的 AI 工作負(fù)載采用 GPU-Only 虛擬機(jī)的做法,正在被能夠大幅降低 AI 計(jì)算能耗的其他方案所替代。
與傳統(tǒng)計(jì)算相比,運(yùn)行 AI 需要更高的能耗。Bloomberg 對(duì)此進(jìn)行了詳細(xì)介紹:ChatGPT3 的參數(shù)量達(dá)到 1,750 億,消耗了高達(dá) 1.287 千兆瓦時(shí)電量,相當(dāng)于120 戶美國(guó)家庭一年的耗電量。而類似 ChatGPT4 這樣的新模型(預(yù)計(jì)參數(shù)量達(dá)到 1.7 萬(wàn)億),將比 ChatGPT3 消耗更高的電量。
由于 AI 帶來(lái)的能耗需求飆升,配置適度算力并減少所需的計(jì)算量是行業(yè)迫在眉睫的需求。云原生計(jì)算可助力降低運(yùn)行成本,為配置硬件層面的適度算力奠定基礎(chǔ),滿足當(dāng)前和未來(lái)的計(jì)算需求,并降低能耗。
配置適度算力,滿足計(jì)算和效率需求
云原生處理器是 CPU 架構(gòu)的一項(xiàng)創(chuàng)新,是 AI 推理切實(shí)可靠的新選擇,可替代高成本、高能耗的傳統(tǒng) x86 處理器。為 AI 應(yīng)用程序配置適度算力,意味著您可以決定使用 CPU-Only,或是將云原生處理器的能效、可擴(kuò)展性和計(jì)算性能與 GPU 的并行計(jì)算能力相結(jié)合。
如您希望擁有價(jià)值及能效更高的 AI 解決方案,告別傳統(tǒng)方案導(dǎo)致的高成本和高能耗,可遵循以下 3 項(xiàng)簡(jiǎn)單準(zhǔn)則:
保持靈活性,滿足未來(lái)的計(jì)算需求
僅部署可滿足應(yīng)用程序性能需求的計(jì)算量,并盡可能多地使用通用處理器,而非專用處理器。此舉有助于保持靈活性,以便滿足未來(lái)的計(jì)算需求。
將 CPU-Only 的 AI 推理
從傳統(tǒng) x86 處理器轉(zhuǎn)移至云原生處理器
相比傳統(tǒng)的 x86 處理器,您可以借助 Ampere 云原生處理器帶來(lái)的性能增益,在 CPU-Only 的情況下部署更廣泛的 AI 工作負(fù)載。
GPU 與高能效的云原生處理器相結(jié)合
將 GPU 與高能效的云原生處理器相結(jié)合,以處理任務(wù)更繁重的 AI 訓(xùn)練或 LLM 推理工作負(fù)載。
若您想了解關(guān)于 Ampere 云原生處理器能效的更多精彩內(nèi)容,請(qǐng)參閱指南:《云原生處理器助力數(shù)據(jù)中心效率勁升三倍》
僅部署您所需的計(jì)算量
在 AI 技術(shù)發(fā)展的研究和訓(xùn)練階段,GPU 是所有 AI 應(yīng)用(包括建模和推理)的首選處理器。雖然 GPU 推動(dòng)了 AI 的發(fā)展,但對(duì)于許多 AI 應(yīng)用而言,GPU 提供的算力已經(jīng)過(guò)剩,尤其是針對(duì)離線(batch)推理或批量推理而言。
離線推理(Batch Inference)應(yīng)用是算力要求較低的工作負(fù)載,不需要 GPU 的處理能力:為此而購(gòu)買 GPU,猶如為了 5 公里的上班路程購(gòu)置豪華跑車——這顯然是大材小用。當(dāng)把同樣昂貴的 GPU 硬件分別用于運(yùn)行大型和小型模型時(shí),小模型可能僅用了 GPU 能力的一小部分。在這些情況下,CPU 可以代替 GPU,幫助您節(jié)省能耗、空間和成本。
在處理離線推理時(shí),那些遵循默認(rèn)做法而采用 GPU 方案的客戶,至少錯(cuò)過(guò)了兩種更合適的優(yōu)化方案。
方案一
將 GPU 替換成適用于 AI 推理的高性能云原生處理器。
適用于 AI 推理的高性能云原生處理器。
方案二
將 GPU 與云原生處理器進(jìn)行結(jié)合,以實(shí)現(xiàn)更高效的 LLM 推理和訓(xùn)練工作。
這正是我們所定義的"適度算力"。
以下模型呈現(xiàn)了如何為 AI 應(yīng)用程序配置適度算力,同時(shí)也對(duì)比了性能、計(jì)算需求與所需功耗。根據(jù)模型,CPU-Only 解決方案是純 AI 推理計(jì)算的優(yōu)選項(xiàng),而需要更高性能的應(yīng)用程序,可以在 CPU 和 GPU 的組合上運(yùn)行。
當(dāng)然,CPU 的選擇也決定著您將付出的能耗以及獲得的每瓦性能。而云原生處理器的性能優(yōu)勢(shì)和 Ampere 優(yōu)化的 AI 軟件,讓 CPU 成為運(yùn)行 AI 推理工作負(fù)載的理想之選。
將 AI 推理全部遷移至云原生處理器
歡迎加入云原生社區(qū),這里匯聚了眾多開(kāi)發(fā)和設(shè)計(jì)人員。他們發(fā)現(xiàn)僅使用 Ampere 云原生處理器,也能夠?qū)崿F(xiàn)高效的 AI 推理。Ampere 優(yōu)化的 AI 框架支持所有在最流行 AI 框架中開(kāi)發(fā)的模型,包括 PyTorch、TensorFlow 和 ONNX Runtime,這種豐富的集成提供了無(wú)縫的體驗(yàn),且無(wú)需修改 API 或進(jìn)行額外的模型編碼。
Ampere 優(yōu)化的 AI 框架
相比傳統(tǒng)的 x86 處理器,Ampere Altra 系列云原生處理器在 AI 推理方面擁有顯著的性能優(yōu)勢(shì),包括:
針對(duì)計(jì)算機(jī)視覺(jué)工作負(fù)載,性能最高可提升 4 倍*。
針對(duì)常見(jiàn)的NLP 工作負(fù)載,每瓦性能最高可提升 3 倍*。
Ampere AI 優(yōu)化軟件可提供更高效的 AI 推理。基于 Ampere 處理器的 AI 和 ML 推理工作負(fù)載,可通過(guò) Ampere AI 解決方案的軟件框架進(jìn)行優(yōu)化。通過(guò)使用 Ampere AI 解決方案,基于 CPU 的推理工作負(fù)載能夠獲得在成本、性能、可擴(kuò)展性和能效等方面的優(yōu)勢(shì),同時(shí)用戶能夠使用常見(jiàn)的標(biāo)準(zhǔn) AI 框架進(jìn)行編程。這套框架易于使用,無(wú)需轉(zhuǎn)換代碼,并且免費(fèi)。
借助 fp16 數(shù)據(jù)格式的獨(dú)特支持,Ampere Altra 系列處理器可實(shí)現(xiàn)最佳的推理性能——與 fp32 數(shù)據(jù)格式相比,fp16 數(shù)據(jù)格式可提供高達(dá) 2 倍的額外*加速,并且精度損失微乎其微。
將 GPU 與高能效 CPU 結(jié)合,
開(kāi)展 AI 訓(xùn)練和推理
在需要使用 GPU 的 AI 應(yīng)用中,繁重的 AI 工作負(fù)載由 GPU 處理,而 CPU 則需要充當(dāng)系統(tǒng)主機(jī)。在這樣的應(yīng)用中,因?yàn)?GPU 決定了系統(tǒng)性能,所以無(wú)論使用哪種 CPU,它們的性能始終相同。
CPU 之間的區(qū)別在于其整體效率。與傳統(tǒng) x86 CPU 相比,云原生處理器將為您帶來(lái)高能效,幫助顯著降低系統(tǒng)的總體能耗*,并提供同等的性能。
采用云原生處理器,每臺(tái)服務(wù)器可以節(jié)省數(shù)百瓦電力,這足以讓您在每個(gè)機(jī)架上再增加一臺(tái)服務(wù)器。雖然看似收益頗微,但實(shí)際上通過(guò)每機(jī)架增加一臺(tái)服務(wù)器,整個(gè)數(shù)據(jù)中心的計(jì)算密度將大幅提升。此外,在服務(wù)器層面節(jié)省能耗還可以減少對(duì)冷卻系統(tǒng)的依賴,從而節(jié)省更多成本,并進(jìn)一步降低能耗。
云原生處理器與 GPU 相結(jié)合,有助于實(shí)現(xiàn)目標(biāo)性能,并降低能耗和總體成本。
未來(lái)的 AI:強(qiáng)大、高效、開(kāi)放
隨著 AI 加速涌入我們的生活和工作,我們需要克服的最關(guān)鍵障礙,是如何降低 AI 大規(guī)模應(yīng)用的成本,而適度算力以及模型優(yōu)化能夠帶來(lái)規(guī)模效率。
為計(jì)算配置適度算力,不僅需要確保硬件解決方案能滿足當(dāng)前的計(jì)算需求,還需要能夠支持應(yīng)用程序擴(kuò)展,并經(jīng)得起未來(lái)的算力需求考驗(yàn)。Ampere 云原生處理器為您提供廣泛的選擇,既能滿足您當(dāng)前的需求,同時(shí)具備靈活性,可輕松滿足您未來(lái)的需求。無(wú)論您是選擇 CPU-Only 的方案,還是 GPU 與 CPU 相結(jié)合的解決方案,云原生架構(gòu)都擁有性能和效率優(yōu)勢(shì),契合您當(dāng)前和未來(lái)的計(jì)算需求。
為云計(jì)算而生,Ampere 云原生處理器為行業(yè)提供可預(yù)測(cè)的卓越性能、平臺(tái)可擴(kuò)展性和空前的能效。
歡迎您與我們的專業(yè)銷售團(tuán)隊(duì)洽談合作,獲取更多信息,或通過(guò)我們的開(kāi)發(fā)者體驗(yàn)計(jì)劃試用 Ampere System。
審核編輯:湯梓紅
-
處理器
+關(guān)注
關(guān)注
68文章
19286瀏覽量
229842 -
cpu
+關(guān)注
關(guān)注
68文章
10863瀏覽量
211765 -
AI
+關(guān)注
關(guān)注
87文章
30896瀏覽量
269087 -
人工智能
+關(guān)注
關(guān)注
1791文章
47279瀏覽量
238497 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1561瀏覽量
7671
原文標(biāo)題:創(chuàng)芯課堂|用于人工智能(AI)的最佳處理器怎么選?
文章出處:【微信號(hào):AmpereComputing,微信公眾號(hào):安晟培半導(dǎo)體】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論