電子發(fā)燒友網(wǎng)報道(文/周凱揚)從去年國產(chǎn)GPU開始陸續(xù)冒尖后,今年各大廠商的動作明顯更大了一些,新品頻繁面世。但從這些新品的規(guī)格和技術(shù)來看,其實每家公司對于自己GPU產(chǎn)品的定位都是不同的,我們就選幾家國產(chǎn)GPU廠商來分析一下他們的產(chǎn)品定位以及未來技術(shù)趨勢。
摩爾線程
作為近期剛發(fā)布了新品的國產(chǎn)GPU廠商,摩爾線程確實收獲了不少關(guān)注,他們最新的顯卡MTT S80也一度成了熱點話題。MTT S80作為一張游戲顯卡,搭載了MT-春曉芯片核心,功耗最高250W,單精度浮點算力高達14.4TFLOPS。
不僅如此,MTT S80也是業(yè)內(nèi)首個PCIe 5.0的顯卡,支持雙向128GB/s的傳輸帶寬。更重要的是,哪怕標榜的是游戲顯卡,MTT S80依然支持3D圖形渲染、智能多媒體、物理仿真及科學計算和AI計算加速的全功能應用。

MTT S3000 / 摩爾線程
除了MTT S80以外,春曉這一芯片也為摩爾線程帶來了面向服務(wù)器GPU市場的新產(chǎn)品,MTT S3000。單從芯片規(guī)格上來看,MTT S3000與MTT S80都用的是完整的MT-春曉芯片,都內(nèi)置了4096個MUSA流處理單元,但前者將主頻提高到了1.9GHz,F(xiàn)P32也因此提升到了15.2TFLOPS。
為了讓MTT S3000更適用于服務(wù)器市場,摩爾線程也將其顯存提升至了32GB,并增加了對虛擬化的支持,可對GPU彈性切分,MTT S3000也從MTT S80的主動散熱改為了被動散熱。
到了AI上,摩爾線程的MUSA架構(gòu)和軟件棧為MTT S3000提供了訓推一體的支持。除了訓練支持TensorFlow、PyTorch、飛槳等常見框架外,摩爾線程還在推理上打造了自研AI推理引擎TensorX,甚至推出了兼容CUDA源碼的方案。
可以看出,摩爾線程不僅已經(jīng)在游戲GPU市場有了彌足珍貴的進展,同樣想在服務(wù)器市場實現(xiàn)突破,甚至是通過兼容CUDA來吸引更多的客戶,這其實也是英偉達這樣的GPU巨頭主攻的兩大方向。但兼容或?qū)薈UDA一法,AMD、英特爾這樣的國際大廠也都在推進,卻也都是各自為戰(zhàn),考慮到其中涉及的開發(fā)投入和難度之大,或許在軟件生態(tài)上走合作之路會更適合。
芯動科技
在使用GPU這類產(chǎn)品的過程中,支持不同的圖形與計算API對于開發(fā)者來說尤為重要。而芯動科技的風華GPU在這API上的支持尤為亮眼,目前已經(jīng)完美支持到OpenGL 4.3、OpenGL ES 3.2、Vulkan 1.2和OpenCL 3.0,這也為風華GPU的開發(fā)生態(tài)奠定了基礎(chǔ)。
雖然其產(chǎn)品性能本身已經(jīng)足夠亮眼,但風華GPU真正最大的優(yōu)勢在于芯動自研高性能接口IP上,包括高帶寬內(nèi)存(GDDR6x、HBM3)、高速SerDes(PCIe 5.0、CXL 2.0)和高清多媒體(HDMI 2.1、eDP 1.4)等等,同時這些IP也實現(xiàn)了對先進工藝的覆蓋。而且芯動科技已經(jīng)在最近推出了跨工藝、跨封裝的Chiplet互聯(lián)解決方案Innolink Chiplet,同時兼容UCIe Chiplet。
對于高性能GPU來說,如果說核心IP決定了性能上限的話,那么這些接口IP就決定了GPU能發(fā)揮出多少實力,以及是否能在未來的服務(wù)器市場大放異彩。目前看來,風華2號的定位是一款低功耗的GPU產(chǎn)品,更適合用于智能座艙之類的應用中,而風華1號則是面向服務(wù)器市場,尤其是像云游戲、云手機之類的場景。
可從規(guī)格來看,這兩款一年以內(nèi)發(fā)布的產(chǎn)品其實都還沒有用到PCIe 5.0之類的新接口技術(shù)。芯動科技已經(jīng)在8月公開表示,風華3號也已經(jīng)基本完成研發(fā),還支持光線追蹤技術(shù),據(jù)了解該產(chǎn)品和風華1號一樣也是面向服務(wù)器/數(shù)據(jù)中心市場的,但或許還是會側(cè)重在云游戲等商用場景上,相信我們會在未來的發(fā)布上看到風華3號更強大的性能表現(xiàn)。
壁仞科技
雖然壁仞科技最近遇上了一些麻煩,但不可否認的是,其BR100系列通用GPU芯片確實在性能上達到了極高的水準。與上面提到的兩個GPU不同,BR100雖然是通用計算GPU,但明顯更適合于AI和科學計算這樣的高性能計算場景,所以BR100并沒有去做DirectX和Vulkan這樣的圖形API支持。
這點從BR100的芯片設(shè)計上也能看出,單個BR100由16個流處理簇構(gòu)成,每個都采用了16個執(zhí)行單元的設(shè)計,而每個執(zhí)行單元包含16個流處理核心(V-core)和一個向量引擎(T-Core)。V-Core作為SIMT處理器,支持到FP32、FP16、INT32、INT16,用于通用計算。
而T-core在SPC級別的2.5D GEMM架構(gòu)下,可以極大加速常見的AI運算,諸如MMA矩陣乘加和卷積等。T-Core不僅支持FP32、TF32這些主流數(shù)據(jù)精度外,還原創(chuàng)定義了TF32+數(shù)據(jù)精度,相較TF32在實現(xiàn)更高精度的同時,也提高了吞吐性能。
從軟件平臺上看,壁仞科技的BIRENSUPA不僅支持PyTorch之類的主流框架,也有壁仞自研的推理加速引擎。從BIRENSUPA平臺框圖中的應用定位來看,壁仞科技的主要發(fā)力方向看來還是多媒體、自動駕駛和推薦系統(tǒng)等重AI的場景。

壁仞100P OAM模組 / 壁仞科技
壁仞科技也是在一眾國產(chǎn)PCIe產(chǎn)品中,唯一推出了OAM模組的廠商,壁仞科技也和浪潮合作推出了“海玄”這種OAM服務(wù)器,實現(xiàn)了8PFLLOPS的峰值算力。不過也正是因為實現(xiàn)了如此高的性能,似乎招致了一些惡意阻礙,但這也恰恰說明了他們走的方向是對的,如果他們能走出這一困境的話,無疑能在服務(wù)器市場大有作為。
摩爾線程
作為近期剛發(fā)布了新品的國產(chǎn)GPU廠商,摩爾線程確實收獲了不少關(guān)注,他們最新的顯卡MTT S80也一度成了熱點話題。MTT S80作為一張游戲顯卡,搭載了MT-春曉芯片核心,功耗最高250W,單精度浮點算力高達14.4TFLOPS。
不僅如此,MTT S80也是業(yè)內(nèi)首個PCIe 5.0的顯卡,支持雙向128GB/s的傳輸帶寬。更重要的是,哪怕標榜的是游戲顯卡,MTT S80依然支持3D圖形渲染、智能多媒體、物理仿真及科學計算和AI計算加速的全功能應用。

MTT S3000 / 摩爾線程
除了MTT S80以外,春曉這一芯片也為摩爾線程帶來了面向服務(wù)器GPU市場的新產(chǎn)品,MTT S3000。單從芯片規(guī)格上來看,MTT S3000與MTT S80都用的是完整的MT-春曉芯片,都內(nèi)置了4096個MUSA流處理單元,但前者將主頻提高到了1.9GHz,F(xiàn)P32也因此提升到了15.2TFLOPS。
為了讓MTT S3000更適用于服務(wù)器市場,摩爾線程也將其顯存提升至了32GB,并增加了對虛擬化的支持,可對GPU彈性切分,MTT S3000也從MTT S80的主動散熱改為了被動散熱。
到了AI上,摩爾線程的MUSA架構(gòu)和軟件棧為MTT S3000提供了訓推一體的支持。除了訓練支持TensorFlow、PyTorch、飛槳等常見框架外,摩爾線程還在推理上打造了自研AI推理引擎TensorX,甚至推出了兼容CUDA源碼的方案。
可以看出,摩爾線程不僅已經(jīng)在游戲GPU市場有了彌足珍貴的進展,同樣想在服務(wù)器市場實現(xiàn)突破,甚至是通過兼容CUDA來吸引更多的客戶,這其實也是英偉達這樣的GPU巨頭主攻的兩大方向。但兼容或?qū)薈UDA一法,AMD、英特爾這樣的國際大廠也都在推進,卻也都是各自為戰(zhàn),考慮到其中涉及的開發(fā)投入和難度之大,或許在軟件生態(tài)上走合作之路會更適合。
芯動科技
在使用GPU這類產(chǎn)品的過程中,支持不同的圖形與計算API對于開發(fā)者來說尤為重要。而芯動科技的風華GPU在這API上的支持尤為亮眼,目前已經(jīng)完美支持到OpenGL 4.3、OpenGL ES 3.2、Vulkan 1.2和OpenCL 3.0,這也為風華GPU的開發(fā)生態(tài)奠定了基礎(chǔ)。
雖然其產(chǎn)品性能本身已經(jīng)足夠亮眼,但風華GPU真正最大的優(yōu)勢在于芯動自研高性能接口IP上,包括高帶寬內(nèi)存(GDDR6x、HBM3)、高速SerDes(PCIe 5.0、CXL 2.0)和高清多媒體(HDMI 2.1、eDP 1.4)等等,同時這些IP也實現(xiàn)了對先進工藝的覆蓋。而且芯動科技已經(jīng)在最近推出了跨工藝、跨封裝的Chiplet互聯(lián)解決方案Innolink Chiplet,同時兼容UCIe Chiplet。
對于高性能GPU來說,如果說核心IP決定了性能上限的話,那么這些接口IP就決定了GPU能發(fā)揮出多少實力,以及是否能在未來的服務(wù)器市場大放異彩。目前看來,風華2號的定位是一款低功耗的GPU產(chǎn)品,更適合用于智能座艙之類的應用中,而風華1號則是面向服務(wù)器市場,尤其是像云游戲、云手機之類的場景。
可從規(guī)格來看,這兩款一年以內(nèi)發(fā)布的產(chǎn)品其實都還沒有用到PCIe 5.0之類的新接口技術(shù)。芯動科技已經(jīng)在8月公開表示,風華3號也已經(jīng)基本完成研發(fā),還支持光線追蹤技術(shù),據(jù)了解該產(chǎn)品和風華1號一樣也是面向服務(wù)器/數(shù)據(jù)中心市場的,但或許還是會側(cè)重在云游戲等商用場景上,相信我們會在未來的發(fā)布上看到風華3號更強大的性能表現(xiàn)。
壁仞科技
雖然壁仞科技最近遇上了一些麻煩,但不可否認的是,其BR100系列通用GPU芯片確實在性能上達到了極高的水準。與上面提到的兩個GPU不同,BR100雖然是通用計算GPU,但明顯更適合于AI和科學計算這樣的高性能計算場景,所以BR100并沒有去做DirectX和Vulkan這樣的圖形API支持。
這點從BR100的芯片設(shè)計上也能看出,單個BR100由16個流處理簇構(gòu)成,每個都采用了16個執(zhí)行單元的設(shè)計,而每個執(zhí)行單元包含16個流處理核心(V-core)和一個向量引擎(T-Core)。V-Core作為SIMT處理器,支持到FP32、FP16、INT32、INT16,用于通用計算。
而T-core在SPC級別的2.5D GEMM架構(gòu)下,可以極大加速常見的AI運算,諸如MMA矩陣乘加和卷積等。T-Core不僅支持FP32、TF32這些主流數(shù)據(jù)精度外,還原創(chuàng)定義了TF32+數(shù)據(jù)精度,相較TF32在實現(xiàn)更高精度的同時,也提高了吞吐性能。
從軟件平臺上看,壁仞科技的BIRENSUPA不僅支持PyTorch之類的主流框架,也有壁仞自研的推理加速引擎。從BIRENSUPA平臺框圖中的應用定位來看,壁仞科技的主要發(fā)力方向看來還是多媒體、自動駕駛和推薦系統(tǒng)等重AI的場景。

壁仞100P OAM模組 / 壁仞科技
壁仞科技也是在一眾國產(chǎn)PCIe產(chǎn)品中,唯一推出了OAM模組的廠商,壁仞科技也和浪潮合作推出了“海玄”這種OAM服務(wù)器,實現(xiàn)了8PFLLOPS的峰值算力。不過也正是因為實現(xiàn)了如此高的性能,似乎招致了一些惡意阻礙,但這也恰恰說明了他們走的方向是對的,如果他們能走出這一困境的話,無疑能在服務(wù)器市場大有作為。
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。
舉報投訴
-
gpu
+關(guān)注
關(guān)注
28文章
4889瀏覽量
130478 -
AI
+關(guān)注
關(guān)注
87文章
33714瀏覽量
274490
發(fā)布評論請先 登錄
相關(guān)推薦
熱點推薦
CPU\GPU引領(lǐng),國產(chǎn)AI PC進階
電子發(fā)燒友網(wǎng)報道(文/黃晶晶)當前AI PC已經(jīng)成為PC產(chǎn)業(yè)的下一個浪潮,國產(chǎn)CPU、GPU廠商在PC市場一直處于追趕態(tài)勢,AI PC給了大家新的機遇,在這個賽道

黑芝麻A2000#高階智能駕駛與通用AI計算芯片詳細解析
、產(chǎn)品定位與核心目標 A2000家族是黑芝麻智能華山系列的最新產(chǎn)品, 定位于高階智能駕駛與通用AI計算 ,目標是通過高算力、高能效的芯片設(shè)計

AI演進的核心哲學:使用通用方法,然后Scale Up!
,得到一個AI發(fā)展的重要歷史教訓:利用計算能力的通用方法最終是最有效的,而且優(yōu)勢明顯”。核心原因是摩爾定律,即單位計算成本持續(xù)指數(shù)級下降。大多數(shù) A

沐曦曦云C500通用計算GPU與百度飛槳完成Ⅱ級兼容性測試
近日,沐曦曦云C500通用計算GPU與百度飛槳已完成Ⅱ級兼容性測試。測試結(jié)果顯示,雙方兼容性表現(xiàn)良好,整體運行穩(wěn)定。這是沐曦加入飛槳“硬件生態(tài)共創(chuàng)計劃”后的階段性成果。
摩爾線程GPU原生FP8計算助力AI訓練
并行訓練和推理,顯著提升了訓練效率與穩(wěn)定性。摩爾線程是國內(nèi)率先原生支持FP8計算精度的國產(chǎn)GPU企業(yè),此次開源不僅為AI訓練和推理提供了全新的國產(chǎn)

AI推理帶火的ASIC,開發(fā)成敗在此一舉!
的應用性價比遠超GPU,加上博通財報AI業(yè)務(wù)同比大增220%,掀起了AI推理端的ASIC熱潮。 ? 那么ASIC跟傳統(tǒng)的GPU有哪些區(qū)別,開發(fā)上又有哪些流程上的不同? ? ASIC和

GPU加速計算平臺的優(yōu)勢
傳統(tǒng)的CPU雖然在日常計算任務(wù)中表現(xiàn)出色,但在面對大規(guī)模并行計算需求時,其性能往往捉襟見肘。而GPU加速計算平臺憑借其獨特的優(yōu)勢,吸引了行業(yè)內(nèi)人士的廣泛關(guān)注和應用。下面,
云驥智行借助NVIDIA Jetson打造“域腦”通用計算平臺
本案例中,云驥智行(Pegasus Technology)借助 NVIDIA Jetson 打造“域腦”通用計算平臺,實現(xiàn)了在人形機器人、智能新終端等具身智能場景的部署應用,滿足多場景算力需求,保障系統(tǒng)安全穩(wěn)定運行并推動功能拓展。
GPU云計算服務(wù)怎么樣
在當今數(shù)字化快速發(fā)展的時代,高性能計算需求日益增長。為滿足這些需求,GPU云計算服務(wù)應運而生。那么,GPU云計算服務(wù)怎么樣呢?接下來,
澎峰科技計算軟件棧與沐曦GPU完成適配和互認證
?近期,澎峰科技與沐曦完成了對PerfXLM(推理引擎)、PerfXCloud(大模型服務(wù)平臺)與沐曦的曦云系列通用計算GPU的聯(lián)合測試,測試結(jié)果表明PerfXLM、PerfXCloud軟件與沐曦GPU產(chǎn)品實現(xiàn)了全面兼容。
GPU是如何訓練AI大模型的
在AI模型的訓練過程中,大量的計算工作集中在矩陣乘法、向量加法和激活函數(shù)等運算上。這些運算正是GPU所擅長的。接下來,AI部落小編帶您了解GPU
《CST Studio Suite 2024 GPU加速計算指南》
《GPU Computing Guide》是由Dassault Systèmes Deutschland GmbH發(fā)布的有關(guān)CST Studio Suite 2024的GPU計算指南。涵蓋GP
發(fā)表于 12-16 14:25
《算力芯片 高性能 CPUGPUNPU 微架構(gòu)分析》第3篇閱讀心得:GPU革命:從圖形引擎到AI加速器的蛻變
場景精確投射到2D平面;最后在像素著色階段完成材質(zhì)渲染和光照明細處理。DirectX API的迭代推動了可編程著色器的發(fā)展,解放了GPU的通用計算潛能。特別是像素著色器的設(shè)計,啟發(fā)了我在深度學習任務(wù)中
發(fā)表于 11-24 17:12
GPU加速計算平臺是什么
GPU加速計算平臺,簡而言之,是利用圖形處理器(GPU)的強大并行計算能力來加速科學計算、數(shù)據(jù)分析、機器學習等復雜
新的Arm GPU助力釋放消費電子設(shè)備市場中的游戲和AI創(chuàng)新潛能
作為人們?nèi)粘?shù)字生活中不可或缺的一部分,Arm GPU 賦能了從當今智能手機上的沉浸式游戲,到各類邊緣側(cè)人工智能 (AI) 體驗的方方面面。

評論