電子發(fā)燒友網(wǎng)報(bào)道(文/黃晶晶)去年,Arm基于Armv9.2架構(gòu)推出了Cortex-X4內(nèi)核,更早前還有Cortex-X3/2/1內(nèi)核。今年,Arm推出了第二代Armv9.2 CPU 集群,其中包括Cortex- X925,這一次并沒有延用單個(gè)數(shù)字,如Cortex-X5這樣的命名方式。在最近包括電子發(fā)燒友在內(nèi)參與的Arm技術(shù)媒體分享日期間,Arm技術(shù)專家表示,Cortex-X925是Cortex-X推出以來取得最高IPC同比增幅的CPU,Arm想以此來清楚呈現(xiàn)其與前代產(chǎn)品的不同。與此同時(shí),Cortex-X925 CPU與Immortalis-G925 GPU進(jìn)行命名上的統(tǒng)一,以表明這些是真正的旗艦高端 IP,也是Arm終端CSS的基石。
Arm 終端計(jì)算子系統(tǒng) (CSS) 作為最新的Arm計(jì)算平臺(tái),首次在終端領(lǐng)域?yàn)锳rm CPU和GPU交付物理實(shí)現(xiàn)。此舉也將使構(gòu)建基于 Arm 架構(gòu)的解決方案變得更加簡(jiǎn)單,確保萬無一失。
聯(lián)發(fā)科將基于Arm Cortex- X925 CPU和 Arm Immortalis-G925 GPU推出新一代天璣9400手機(jī)SoC。同時(shí), Arm 也在與生態(tài)系統(tǒng)合作伙伴緊密合作,計(jì)劃推出面向AI PC的處理器。前不久,Arm CEO公開表示希望Arm在5年內(nèi)拿下50%的Windows PC 市場(chǎng)。這一切都將基于Arm最新的CPU和GPU以及著眼于未來數(shù)年發(fā)展的CSS來實(shí)現(xiàn)。
一個(gè)平臺(tái)助力3nm芯片量產(chǎn)、端側(cè)AI:Arm終端計(jì)算子系統(tǒng)
AI時(shí)代,生產(chǎn)力應(yīng)用需要高性能平臺(tái)來為高分辨率屏幕提供高刷新率;高端游戲應(yīng)用已經(jīng)采用了計(jì)算復(fù)雜型技術(shù),為用戶帶來視覺震撼的游戲體驗(yàn);創(chuàng)意工作者正在不斷開辟將手機(jī)用于專業(yè)攝影用例的無盡可能。這些用例需要強(qiáng)大的計(jì)算能力作為支撐,并且正在通過 AI 得到進(jìn)一步增強(qiáng)。在終端設(shè)備上打造新一波具有突破性的端側(cè)生成式 AI 體驗(yàn),全新的計(jì)算平臺(tái)能力必不可少。Arm最新推出的終端計(jì)算子系統(tǒng)(CSS) 聚焦于實(shí)現(xiàn)平臺(tái)能力的重大飛躍,優(yōu)先考慮了四個(gè)關(guān)鍵領(lǐng)域:突破性能邊界以處理要求苛刻的安卓實(shí)際工作負(fù)載;針對(duì)生成式 AI 以及更廣泛的 AI/ML 和計(jì)算機(jī)視覺工作負(fù)載提高性能;持續(xù)專注于實(shí)現(xiàn)兩位數(shù)的系統(tǒng)能效提升;擴(kuò)展平臺(tái)以獲得更高的性能點(diǎn),滿足新一代 AI PC 設(shè)備的需求(包括筆記本電腦和平板電腦)。
Arm終端CSS包括第二代 Armv9.2 CPU 集群,內(nèi)含性能最強(qiáng)的 Arm Cortex-X — Cortex-X925 CPU 以及效率最高的 Cortex-A 核心——Cortex-A725 和更新后的 Cortex-A520 CPU,讓三納米工藝上的性能和效率達(dá)到全新水平。基于第五代 Arm GPU架構(gòu)的全新GPU系列包括專為旗艦移動(dòng)設(shè)備設(shè)計(jì)的 Arm Immortalis-G925,以及面向大眾行業(yè)市場(chǎng)移動(dòng)設(shè)備的 Arm Mali-G725和Mali-G625。
新的Arm終端CSS 物理實(shí)現(xiàn)面向超過3.6GHz的運(yùn)行頻率,并在先進(jìn)的三納米工藝上實(shí)現(xiàn)了一流的平臺(tái)功耗、性能和面積 (PPA)。這些實(shí)現(xiàn)在多家代工廠可用,為合作伙伴提供更大的靈活性。適用于安卓系統(tǒng)的 CSS 參考軟件棧搭配固定虛擬平臺(tái) (Fixed Virtual Platform, FVP),助力合作伙伴加速流片前的軟件開發(fā)。
此外,全新 Arm Performance Studio 提供了全方位工具環(huán)境,幫助開發(fā)者簡(jiǎn)化開發(fā)流程,充分發(fā)揮 Arm 終端 CSS 的潛力。
Arm 終端事業(yè)部產(chǎn)品管理總監(jiān)Steve Hopper詳細(xì)解析了基于FPGA為終端CSS構(gòu)建的內(nèi)部參考平臺(tái)上運(yùn)行安卓軟件棧的性能表現(xiàn)。他表示,作為Arm最快的安卓平臺(tái),終端CSS在基于 2+4+2(2個(gè)Cortex-X925 + 4個(gè)Cortex-A725 + 2個(gè)Cortex-A520)的CPU集群配置的表現(xiàn)來看,配置上包含第二個(gè)Cortex-X925是為了提高CSS 平臺(tái)上重要用例的性能,如應(yīng)用啟動(dòng)和 AI 性能。并且通過將 L3 緩存大小從 8MB 增加到 16MB,并在集群中所有核心之間共享,計(jì)算量大的工作負(fù)載實(shí)現(xiàn)進(jìn)一步加速。
相比去年基于FPGA的安卓旗艦配置實(shí)現(xiàn),2+4+2 CPU 集群將應(yīng)用啟動(dòng)提速約 33%。通過集群的升級(jí),包括額外的 Cortex-X 核心,并將 L3 緩存增加到 16MB,性能提升了約10%。對(duì)于 AI 大語言模型 (LLM),測(cè)量到終端 CSS 平臺(tái)上詞元 (Token) 首次響應(yīng)時(shí)間,結(jié)果顯著提升46%和42%。
Arm 終端 CSS同時(shí)致力于進(jìn)一步推動(dòng)移動(dòng)端 LLM 性能的提升,使其成為端側(cè)生成式 AI 體驗(yàn)的最佳平臺(tái)。詞元首次響應(yīng)時(shí)間 (TTFT) 指標(biāo)用以衡量生成首個(gè)響應(yīng)詞元的速度。通過終端 CSS、Cortex-X925 和 KleidiAI 技術(shù),對(duì)于具有 3.8B 參數(shù)模型的 Phi-3 的 TTFT,實(shí)現(xiàn)46%的顯著提升;而對(duì)于具有 8B 參數(shù)的更大模型 Llama 3,TTFT 性能提高了驚人的42%。
對(duì)于 Immortalis-G925,在17 個(gè)主流 AI 網(wǎng)絡(luò)(使用 fp16 數(shù)據(jù)類型)上觀察到 AI 推理速度平均提高了 36%。Cortex-X925 CPU的推理速度與上一代 Cortex-X4 相比提升59%。通過利用一顆額外的 Cortex-X925 CPU,在 17 個(gè)主流 AI 網(wǎng)絡(luò)中 int8 和 fp16 數(shù)據(jù)類型的 AI 推理時(shí)間大幅提升了170%。
可以說,作為一個(gè)可擴(kuò)展平臺(tái),Arm 終端 CSS 為CPU 和 GPU 上的 AI 推理工作負(fù)載帶來了顯著的性能飛躍。這是硬件進(jìn)步與 Arm Compute Library 優(yōu)化相結(jié)合所產(chǎn)生的強(qiáng)大效果。
70%的第三方ML/AI應(yīng)用運(yùn)行在CPU上
Arm Cortex-X系列自2020年推出以來主要聚焦于優(yōu)化提高單線程性能。Cortex-X1到X4的迭代都是如此。今年推出的Cortex-X925 CPU設(shè)計(jì)更具創(chuàng)新性。
“要實(shí)現(xiàn)優(yōu)異性能,并非只涉及單個(gè)因素,要綜合考慮每時(shí)鐘周期指令數(shù) (IPC)、頻率、編譯器、操作系統(tǒng) (OS)、封裝等多個(gè)方面。因此,我們革新設(shè)計(jì)理念,通過協(xié)同設(shè)計(jì)IP與物理解決方案,不僅實(shí)現(xiàn)量產(chǎn)就緒,而且具備領(lǐng)先的性能、功耗和面積 (PPA) 表現(xiàn)。”Arm終端事業(yè)部高級(jí)產(chǎn)品經(jīng)理Manish Pandey說道。
基于以上設(shè)計(jì)理念,Arm正在改變Cortex-X CPU性能的發(fā)展軌跡。具體來看Arm Cortex-X925,它是Arm推出的迄今為止速度最快、性能最強(qiáng)的CPU。
通過結(jié)合前沿的微架構(gòu)功能、可配置性和先進(jìn)的物理解決方案,Cortex-X性能表現(xiàn)得到大幅提升。Cortex-X925的單線程性能提升36%(這有賴于對(duì)緩存大小、先進(jìn)的功耗與熱管理技術(shù),以及更新運(yùn)行時(shí)Runtime選擇上的進(jìn)一步投入),AI 性能提高46%。
在先進(jìn)的3nm工藝節(jié)點(diǎn)上Cortex-X925實(shí)現(xiàn)3.8GHz運(yùn)行頻率,使得下一代設(shè)備的 Geekbench得分提高30%以上。
Cortex-X925核心對(duì)端側(cè)AI能力的提升顯著,該核心優(yōu)化AI的響應(yīng)速度、網(wǎng)頁瀏覽、圖像和視頻,以及更出色的高幀率游戲體驗(yàn)等。
在大語言模型 (LLM) 上,詞元 (Token) 首次響應(yīng)時(shí)間縮短約40%,同時(shí)在熱門的 AI 網(wǎng)絡(luò)中,推理速度提升高達(dá) 35%。這還只是ISO配置提升,再計(jì)入額外的緩存投入和工藝節(jié)點(diǎn)遷移提供的更高頻率,能讓設(shè)備實(shí)現(xiàn)更加出色的性能。
在功耗改進(jìn)方面,在DVFS曲線的操作點(diǎn)上端,Cortex-X925在關(guān)鍵時(shí)刻達(dá)到峰值性能,這表現(xiàn)在設(shè)備響應(yīng)速度顯著提升。在操作點(diǎn)的中段范圍內(nèi),Cortex-X925在給定的功耗范圍內(nèi)提升了性能,也就是在功耗和熱設(shè)計(jì)受限的設(shè)備中能夠?qū)崿F(xiàn)更多功能。此外,在固定的計(jì)算需求下,Cortex-X925 降低了功耗,有助于延長(zhǎng)電池續(xù)航時(shí)間。
Cortex-A700所對(duì)應(yīng)的產(chǎn)品系列已經(jīng)發(fā)展了14代,整個(gè)團(tuán)隊(duì)過去曾開發(fā)Cortex-A9(大約20年前的首個(gè)亂序執(zhí)行 CPU)和 Cortex-A73(迄今出貨量最高的亂序執(zhí)行CPU)。現(xiàn)在,這個(gè)團(tuán)隊(duì)全面專注于 Cortex-A700 系列的性能效率。
今年推出的Arm Cortex-A725,在性能效率設(shè)計(jì)上主要是滿足持續(xù)的AI和游戲體驗(yàn),以及為這條產(chǎn)品線在三納米工藝上實(shí)現(xiàn)最佳的物理解決方案。Cortex-A725與去年的產(chǎn)品相比,能效提高25%。AI是高度線程化的,可以非常有效地在多核上運(yùn)行更多的計(jì)算。通過提升25%的能效,可為整個(gè)核心提供余量。
Cortex-A520也做了更新。針對(duì)三納米工藝的實(shí)現(xiàn),對(duì)于Cortex-A520 來說同樣比較復(fù)雜。通過更新實(shí)現(xiàn)流程,并與專用集成電路 (ASIC)/芯片團(tuán)隊(duì)緊密合作,以確保在保持微架構(gòu)不變的情況下,Arm為合作伙伴提供最佳的三納米工藝解決方案。
依據(jù)不同的終端應(yīng)用,Cortex-X925、Cortex-A725、Cortex-A520這幾個(gè)核在設(shè)計(jì)時(shí)可進(jìn)行組合。DSU就起到將CPU IP高效協(xié)同的集群作用,同時(shí)DSU具有可擴(kuò)展性。DSU作為一款特別的IP,它的性能指標(biāo)包括緩存大小、帶寬、延遲、漏電和動(dòng)態(tài)功耗。今年,DSU-120 針對(duì)多個(gè)新用例進(jìn)行了重點(diǎn)更新,聚焦在 PPA 和功耗方面的改善。
例如,機(jī)器學(xué)習(xí) (ML)/AAA 游戲等用例對(duì)于緩存大小和緩存吞吐量較為敏感。而 AI 智能攝像頭等用例則對(duì)緩存大小敏感度低,但對(duì)內(nèi)存延遲更為敏感。而低強(qiáng)度線程的工作負(fù)載則對(duì)漏電比較敏感。DSU可以通過單個(gè)實(shí)現(xiàn),達(dá)到動(dòng)態(tài)應(yīng)對(duì)不同用例的效果。
今年Arm在DSU中推出半切片斷電模式 (Half Slice Powerdown),還為面向 RAM 新增了Quick Nap (QNap) 模式,QNap 模式是介于RAM運(yùn)作 (Functional) 模式和保留 (Retention) 模式之間,可在不影響性能的前提下有效降低漏電。
Arm 終端事業(yè)部產(chǎn)品管理總監(jiān) Steve Hopper表示,由于CPU的易訪問性,其通常是運(yùn)行AI工作負(fù)載的首選目標(biāo),以安卓平臺(tái)來看,目前70%的第三方 ML/AI 應(yīng)用運(yùn)行在CPU上。未來,在高端設(shè)備中 CPU、GPU和NPU三者相輔相成。但對(duì)于一些較低級(jí)別的設(shè)備來說,廠商可能很難承擔(dān)NPU的費(fèi)用,因此,CPU 往往是一個(gè)很好的運(yùn)行此類工作負(fù)載的選擇。
GPU:游戲與AI/ML兼得
Arm Immortalis-G925是Arm目前性能最強(qiáng)、效率最高的GPU,也是Arm終端計(jì)算子系統(tǒng) (CSS) 的組成部分。
與Immortalis-G720相比,Arm終端CSS參考平臺(tái)中的 Immortalis-G925在各種圖形應(yīng)用中的性能提高了37%;在運(yùn)行AI/ML網(wǎng)絡(luò)方面,性能顯著提高了 36%。在提供與2023年參考平臺(tái)相當(dāng)?shù)挠螒蛐阅軙r(shí),Arm終端CSS中的 Immortalis-G925 能節(jié)省高達(dá) 30% 的功耗;而在對(duì)復(fù)雜對(duì)象進(jìn)行光線追蹤,其性能提升高達(dá) 52%。
安謀科技 (Arm China) 市場(chǎng)總監(jiān)王剛分析,Immortalis-G925主要關(guān)注三個(gè)方面:實(shí)際環(huán)境中的游戲性能、AI/ML 性能,以及與生態(tài)合作伙伴的緊密協(xié)作。
在游戲性能方面,主流手游運(yùn)行在采用 Immortalis-G925的Arm 終端 CSS 參考平臺(tái)時(shí),與去年的解決方案相比,性能平均提升了46%。以米哈游的《原神》為例,Arm 終端 CSS 使其性能提高49%。由騰訊光子工作室群和 KRAFTON 公司聯(lián)合開發(fā)的《絕地求生手游》運(yùn)行速度提升36%,《Roblox》更是大幅提升46%。此外,其他熱門手游的性能也提升29% 到72%。這種代際的性能飛躍令人驚嘆,對(duì)開發(fā)者和最終玩家來說具有重大意義。
前面提到許多AI運(yùn)行在CPU上,但對(duì)于某些工作負(fù)載,如圖像分割或物體檢測(cè),ML很適合在GPU上運(yùn)行。Arm 持續(xù)提升GPU對(duì) AI/ML 性能和效率的支持。
在圖像處理(如分割或分類)方面,與去年的全面計(jì)算解決方案 (TCS) 相比,采用 Immortalis-G925的Arm 終端 CSS性能顯著提升41%。在超級(jí)采樣任務(wù)中,使用神經(jīng)網(wǎng)絡(luò)放大圖像時(shí),性能提升將近30%;在自然語言處理和語音轉(zhuǎn)文本方面,獲得50%性能提升。
????????????
現(xiàn)代手游愈發(fā)復(fù)雜,不僅在于著色器的復(fù)雜度,場(chǎng)景中的幾何圖形數(shù)量也呈爆炸式增長(zhǎng)。過度繪制是場(chǎng)景中模糊不清的重疊像素?cái)?shù)量,即在最終圖像中實(shí)際不會(huì)看見的部分。Arm GPU具備多種技術(shù)以減少過度繪制,進(jìn)而減少到達(dá)片段著色階段的原語數(shù)量。
此前為了有助于從 GPU 上獲得更好的性能,一些應(yīng)用可能會(huì)從前向后對(duì)不透明對(duì)象進(jìn)行排序,這會(huì)增加CPU負(fù)載。Immortalis-G925引入了片段預(yù)處理 (Fragment Prepass) 的新機(jī)制,使得應(yīng)用無需進(jìn)行任何對(duì)象或原語排序。由于無需對(duì)象排序,渲染線程周期縮短了高達(dá) 43%。此外,片段預(yù)處理還可以更高效地減少過度繪制,進(jìn)而提高性能和能效,同時(shí)減少應(yīng)用的 CPU負(fù)載。
Immortatis-G925還改進(jìn)了光線追蹤技術(shù)。在保持視覺準(zhǔn)確性的同時(shí),性能提高27%。開發(fā)者也可選擇稍微降低場(chǎng)景處理中的透明度準(zhǔn)確性,由此可帶來 52% 的性能提升,并且降低 57% 的內(nèi)存訪問,進(jìn)而能夠大幅降低功耗。
Immortalis-G925 所支持的著色器核心數(shù)量增加50%,達(dá)到24個(gè)核心的最大配置,而上一代最多只有16個(gè)。為了實(shí)現(xiàn)這一性能目標(biāo),并確保能夠支持所有著色器核心,Tiler 和命令流前端 (Command Stream Front-end, CSF) 等頂級(jí)單元都經(jīng)過了調(diào)整和優(yōu)化,以充分發(fā)揮 GPU 的性能。
Immortalis-G925具備硬件光線追蹤,可配置10個(gè)以上的核心,適用于旗艦智能手機(jī)等設(shè)備。面向高端手機(jī)市場(chǎng)推出Mali-G725,可在6至9個(gè)核心之間擴(kuò)展。此外,它還能提供與旗艦產(chǎn)品相同的API支持,同時(shí)為其他級(jí)別設(shè)備提供引人入勝的游戲體驗(yàn)。而適用于智能手表和入門級(jí)移動(dòng)設(shè)備的Mali-G625可在1至5個(gè)核心之間擴(kuò)展,提供廣泛的性能支持。
小結(jié):
Arm CPU內(nèi)核性能的提升從Cortex-X925這個(gè)產(chǎn)品開始進(jìn)行了設(shè)計(jì)理念的改變,這將影響未來數(shù)年的內(nèi)核設(shè)計(jì)。同樣,Arm Immortalis-G925 GPU也實(shí)現(xiàn)了大幅提升。更重要的是當(dāng)處理器進(jìn)入3nm工藝制程時(shí),Arm終端CSS的發(fā)布為客戶的芯片從設(shè)計(jì)到量產(chǎn)提供全方位的支持。這背后的一個(gè)巨大動(dòng)力自然是AI,更確切地說是Arm要引領(lǐng)端側(cè)AI,這一次不僅是手機(jī),還將有PC以及其他未來可能的智能終端。
-
ARM
+關(guān)注
關(guān)注
134文章
9180瀏覽量
369456 -
AI
+關(guān)注
關(guān)注
87文章
31711瀏覽量
270507 -
AI PC
+關(guān)注
關(guān)注
0文章
124瀏覽量
287
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
AI PC芯片X86與Arm六四分?乾坤未定,競(jìng)爭(zhēng)焦灼
![<b class='flag-5'>AI</b> <b class='flag-5'>PC</b>芯片X86與<b class='flag-5'>Arm</b>六四分?乾坤未定,競(jìng)爭(zhēng)焦灼](https://file1.elecfans.com/web1/M00/F3/C3/wKgaoWcdt_OAHPUZABK1gDoVvEs525.png)
【書籍評(píng)測(cè)活動(dòng)NO.55】AI Agent應(yīng)用與項(xiàng)目實(shí)戰(zhàn)
Arm推出GitHub平臺(tái)AI工具,簡(jiǎn)化開發(fā)者AI應(yīng)用開發(fā)部署流程
AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感
《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第二章AI for Science的技術(shù)支撐學(xué)習(xí)心得
![](https://file1.elecfans.com/web2/M00/FD/AB/wKgZomad_yCAJVpTAAXNTMgrg94953.png)
AI PC:真正的AI PC,敢于下場(chǎng)
risc-v多核芯片在AI方面的應(yīng)用
AI終端發(fā)展態(tài)勢(shì):AI手機(jī)崛起,AIPC漸成主流
開發(fā)者手機(jī) AI - 目標(biāo)識(shí)別 demo
聯(lián)想4月18日發(fā)布AI PC新品,引領(lǐng)AI PC時(shí)代
AI PC產(chǎn)品密集發(fā)布,預(yù)計(jì)2025年AI PC占全球PC出貨量40%
![<b class='flag-5'>AI</b> <b class='flag-5'>PC</b>產(chǎn)品密集發(fā)布,預(yù)計(jì)2025年<b class='flag-5'>AI</b> <b class='flag-5'>PC</b>占全球<b class='flag-5'>PC</b>出貨量40%](https://file1.elecfans.com/web2/M00/D0/DB/wKgaomYiN-OAWY2KAAWrviyk0vA756.png)
NanoEdge AI的技術(shù)原理、應(yīng)用場(chǎng)景及優(yōu)勢(shì)
怎么在NanoEdge AI Studio設(shè)定交叉編譯器呢?
新火種AI|全網(wǎng)熱炒的“AI PC”,可能是個(gè)偽概念
![新火種<b class='flag-5'>AI</b>|全網(wǎng)熱炒的“<b class='flag-5'>AI</b> <b class='flag-5'>PC</b>”,可能是個(gè)偽概念](https://file1.elecfans.com//web2/M00/BF/FD/wKgZomXLhsSAFBUxAAC6ZK16k5U836.jpg)
評(píng)論