電子發燒友網報道(文/李彎彎)AI、5G等新興產業的蓬勃發展催生了海量數據計算需求,同時AI算法模型持續迭代,復雜化日益凸顯,數字經濟時代下市場需要強大、普惠的算力引擎。而從供給端來看,先進制程的迭代周期變長,使得芯片能效比的提升并不顯著。
針對AI應用特點實現硬件架構創新是必然趨勢,墨芯人工智能CEO王維在某論壇上談到,依托對AI的理解用軟硬一體解決算力瓶頸問題是行業公認的發展方向。他認為,稀疏化能夠有效應對算力瓶頸,實現原理是,不存儲和不處理零值,從而得到更小且更快的模型。
軟硬一體化稀疏路徑符合AI計算核心訴求
軟硬一體化稀疏路徑符合AI計算高吞吐、低功耗、低延時的核心需求。AI稀疏產業化的成功要素包括:1、跨算法、軟件、硬件領域的協同開發;2、擁有持續多層次優化稀疏運算的底層算法能力;3、架構需保證可編程性、高度可拓展屬性及快速迭代能力。
稀疏化路徑已具備批量化工程應用能力。英偉達在2020年推出的A100產品中,就率先引入稀疏Tensor Core實現4:2結構化稀疏,稀疏是神經網絡輕量化的重要手段,英偉達稀疏化產品有效引領市場應用趨勢。稀疏化架構可與現有AI軟件生態深度適配,例如英偉達直接使用Tensor Core進行稀疏矩陣乘累加操作,無需進行底層編程。

墨芯人工智能CEO王維演講(電子發燒友拍攝)
基于雙稀疏特點,自研核心AI架構
墨芯是全球最早研發稀疏化算法及架構的企業,并在2018年開始稀疏化的全球專利布局,該公司也是最早商用稀疏化產品實現銷售的,第一款FPGA產品在2019年Q4開始產生銷售。
王維表示,現有芯片架構設計在稀疏化支持中面臨較大局限,比如CPU架構,可支持跳點運算,但因其算力限制,僅能夠支持邊緣端應用,無法支持更大的模型,再比如GPU架構,只能進行并行計算,所有元素(包括0元素)均參與運算,無法實現高倍數加速。
基于雙稀疏特點,墨芯自研核心AI架構。其雙稀疏架構設計理念:平衡的權重和激活張量剪枝技術,可將精度損失降至最低的前提下保持對硬件的友好度;墨芯獨有的剪枝和壓縮技術可以再許多網絡和應用中實現最多高到32倍的稀疏。
墨芯首款稀疏化云端AI芯片Antoum-1已經回片,實測性能ResNet 50超33000SPS;墨芯板卡S4(單顆Antoum-1)僅30W功耗,實測性能實現英偉達主流產品T4近16倍能效比;墨芯板卡S4對比英偉達主流產品Latency可以做到1/4-1/5。

墨芯人工智能CEO王維演講(電子發燒友拍攝)
稀疏化計算產品商業落地,將賦能AI產業變革。一、助力云服務商降低單位算力擁有成本,2021年,Nvidia在中國營收超過38億美金,其中阿里,騰訊等頭部互聯網公司采購金額基本超過1億美金。隨著AI持續發展,數據量的指數上升導致AI芯片的需求會持續上升,云服務商采購額將逐年增加,因此他們對降低成本的訴求非常強勁,基于Antoum-1的推理卡S4相較于英偉達對標推理卡T4,ResNest50及BERT每FPS/SPS成本降低約85%。
二、助力云服務商縮減能耗成本,電費支出是數據中心最大的營業成本,平均數據中心近60%的營業成本是電力成本,降低能耗是數據中心和云服務商的最大痛點,2021年全國數據中心的耗電量占社會總用電的近3%,且增長率已連續8年超過12%,基于Antoum-1的推理卡S4相較于Nvidia主力推理卡T4,ResNest50及BERT每FPS/SPS能耗成本降低約90%。
小結
目前基于稀疏化的AI架構主要面向云端訓練場景,不過理論上來說,稀疏化訓練由于能大幅降低對內存、帶寬與計算的需求,十分適合訓練,未來墨芯在滿足推理市場的需求后,將切入訓練市場,建立稀疏訓練生態,產品在軟件層面對訓練做更多的開發,支持訓練專用的算子,同時硬件上也會為訓練定義架構。
針對AI應用特點實現硬件架構創新是必然趨勢,墨芯人工智能CEO王維在某論壇上談到,依托對AI的理解用軟硬一體解決算力瓶頸問題是行業公認的發展方向。他認為,稀疏化能夠有效應對算力瓶頸,實現原理是,不存儲和不處理零值,從而得到更小且更快的模型。
軟硬一體化稀疏路徑符合AI計算核心訴求
軟硬一體化稀疏路徑符合AI計算高吞吐、低功耗、低延時的核心需求。AI稀疏產業化的成功要素包括:1、跨算法、軟件、硬件領域的協同開發;2、擁有持續多層次優化稀疏運算的底層算法能力;3、架構需保證可編程性、高度可拓展屬性及快速迭代能力。
稀疏化路徑已具備批量化工程應用能力。英偉達在2020年推出的A100產品中,就率先引入稀疏Tensor Core實現4:2結構化稀疏,稀疏是神經網絡輕量化的重要手段,英偉達稀疏化產品有效引領市場應用趨勢。稀疏化架構可與現有AI軟件生態深度適配,例如英偉達直接使用Tensor Core進行稀疏矩陣乘累加操作,無需進行底層編程。

墨芯人工智能CEO王維演講(電子發燒友拍攝)
基于雙稀疏特點,自研核心AI架構
墨芯是全球最早研發稀疏化算法及架構的企業,并在2018年開始稀疏化的全球專利布局,該公司也是最早商用稀疏化產品實現銷售的,第一款FPGA產品在2019年Q4開始產生銷售。
王維表示,現有芯片架構設計在稀疏化支持中面臨較大局限,比如CPU架構,可支持跳點運算,但因其算力限制,僅能夠支持邊緣端應用,無法支持更大的模型,再比如GPU架構,只能進行并行計算,所有元素(包括0元素)均參與運算,無法實現高倍數加速。
基于雙稀疏特點,墨芯自研核心AI架構。其雙稀疏架構設計理念:平衡的權重和激活張量剪枝技術,可將精度損失降至最低的前提下保持對硬件的友好度;墨芯獨有的剪枝和壓縮技術可以再許多網絡和應用中實現最多高到32倍的稀疏。
墨芯首款稀疏化云端AI芯片Antoum-1已經回片,實測性能ResNet 50超33000SPS;墨芯板卡S4(單顆Antoum-1)僅30W功耗,實測性能實現英偉達主流產品T4近16倍能效比;墨芯板卡S4對比英偉達主流產品Latency可以做到1/4-1/5。

墨芯人工智能CEO王維演講(電子發燒友拍攝)
稀疏化計算產品商業落地,將賦能AI產業變革。一、助力云服務商降低單位算力擁有成本,2021年,Nvidia在中國營收超過38億美金,其中阿里,騰訊等頭部互聯網公司采購金額基本超過1億美金。隨著AI持續發展,數據量的指數上升導致AI芯片的需求會持續上升,云服務商采購額將逐年增加,因此他們對降低成本的訴求非常強勁,基于Antoum-1的推理卡S4相較于英偉達對標推理卡T4,ResNest50及BERT每FPS/SPS成本降低約85%。
二、助力云服務商縮減能耗成本,電費支出是數據中心最大的營業成本,平均數據中心近60%的營業成本是電力成本,降低能耗是數據中心和云服務商的最大痛點,2021年全國數據中心的耗電量占社會總用電的近3%,且增長率已連續8年超過12%,基于Antoum-1的推理卡S4相較于Nvidia主力推理卡T4,ResNest50及BERT每FPS/SPS能耗成本降低約90%。
小結
目前基于稀疏化的AI架構主要面向云端訓練場景,不過理論上來說,稀疏化訓練由于能大幅降低對內存、帶寬與計算的需求,十分適合訓練,未來墨芯在滿足推理市場的需求后,將切入訓練市場,建立稀疏訓練生態,產品在軟件層面對訓練做更多的開發,支持訓練專用的算子,同時硬件上也會為訓練定義架構。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
算力
+關注
關注
2文章
1201瀏覽量
15654
發布評論請先 登錄
相關推薦
熱點推薦
Arm架構將占據半數 2025年出貨到頭部云服務提供商的算力
Neoverse 技術的部署已達到了新的高度:2025 年出貨到頭部超大規模云服務提供商的算力中,將有近 50% 是基于 Arm 架構。
工業4.0革命利器!明遠智睿SSD2351核心板:低成本+高算力,破解產線智能化難題
行業痛點:傳統工業設備智能化改造面臨三大瓶頸——算力不足導致實時性差、接口資源有限難以擴展多設備、進口方案成本高昂且供貨不穩定。
核心板方案
發表于 03-21 14:22
云 GPU 加速計算:突破傳統算力瓶頸的利刃
在數字化時代,數據呈爆炸式增長,傳統的算力已難以滿足復雜計算任務的需求。無論是人工智能的深度學習、大數據的分析處理,還是科學研究中的模擬計算,都對算力提出了極高的要求。而
租用站群服務器時如何降低成本?
在租用站群服務器時,降低成本是許多站群管理者關注的重要問題。主機推薦小編為您整理發布租用站群服務器時如何降低成本,以下是一些實用的策略和建議,有助于在保持性能的同時

Grab選定亞馬遜云科技為首選云服務商
近日,在亞馬遜云科技2024年re:Invent全球大會上,一項重大合作宣布出爐。東南亞領先的超級應用程序Grab與亞馬遜云科技攜手,宣布Grab已正式選定亞馬遜云科技作為其首選的云
超級應用程序Grab選擇亞馬遜云科技為首選云服務商
亞馬遜云科技為首選云服務商。借助亞馬遜云科技,Grab正在實施以技術為核心的發展戰略,旨在推動其業務在出行、配送、以及包括新增的digibanks在內的金融
中國AI企業創新降低成本打造競爭力模型
在中國,面對美國實施的芯片限制以及相較于西方企業更為有限的預算,人工智能(AI)公司正積極尋求降低成本的方法,以開發出具有市場競爭力的模型。初創公司如01.ai(零一萬物)和DeepSeek(深度求索)等,通過聚焦小數據集進行AI模型訓練,并聘請價格適中但技術熟練的計算機
中科曙光入選2024算力服務產業圖譜及算力服務產品名錄
近日,中國信通院公布首個《算力服務產業圖譜(2024年)》及《算力服務產品名錄(2024年)》。
IaaS+on+DPU(IoD)+下一代高性能算力底座技術白皮書
數據中心的第三顆“主力芯片”,主要通過其專用處理器優化數據中心的網絡、存儲、安全等處理性能,助力服務器運行效率顯著提升,有效降低成本。因此,在新型數據中心建設時,圍繞 DPU 構建數據中心網絡的基礎設施
發表于 07-24 15:32
中國算力中心市場持續增長,智能算力規??焖籴绕?/a>
7月24日,中國信息通信研究院(簡稱“中國信通院”)權威發布了《中國算力中心服務商分析報告(2024年)》,該報告深入剖析了中國算力中心市場
評論