華為全場景AI方案構建完成!
在今天深圳的發(fā)布會上,華為副董事長、輪值董事長徐直軍發(fā)布了最新商用AI芯片昇騰910(Ascend 910),以及首款國產的全場景AI計算框架——MindSpore計算框架。
至此,從去年發(fā)布“五大AI戰(zhàn)略”,短短一年時間,在各方壓力下的華為,已經迅速完成了全場景AI方案的全部部件構建。華為表示,接下來會專注于各部件的優(yōu)化和升級。
在答記者問的環(huán)節(jié)徐直軍也提到,“516事件”(美國商務部以國家安全為由,將華為公司及其70家附屬公司列入出口管制「實體名單」)對華為戰(zhàn)略推薦和全場景產品研發(fā)沒有任何影響,盡管外部環(huán)境發(fā)生了很多變化,但是整個AI戰(zhàn)略和產品商用依然在穩(wěn)步推進,也達到了預期結果。
而對于華為在計算框架生態(tài)的構建上,如何與谷歌和Facebook等已經長期耕耘的公司競爭的問題,徐直軍表示,華為的優(yōu)勢在于有自己的移動終端產品,并且利用算力和計算框架結合,可以打造很多其他框架不能實現的功能。
其實在8月21日開幕的第31屆Hot Chips大會上,華為作為主角之一與AMD、Intel、ARM等巨頭同臺亮相時,就推出了AI芯片所用的“Da Vinci(達芬奇)”架構,以及昇騰310、昇騰910芯片和麒麟810芯片。
昇騰310、昇騰910芯片早在去年10月10日的華為全鏈接2018大會上就已首次亮相。
聚焦低功耗的昇騰310已經量產商用,那今天發(fā)布的昇騰910(Ascend 910)AI處理器和MindSpore計算框架又有什么新的亮點呢?
最新商用AI芯片昇騰910發(fā)布
先看昇騰910,據華為介紹,這款芯片在算力方面超過了預期,同等規(guī)格下,昇騰910達到并超過了C級規(guī)格,能在一個時鐘周期下完成4096次計算。
這個成績得益于基于達芬奇架構的AI核的計算核心,除了標量和矢量計算單元,AI核集成了3D立方體計算引擎,與CPU和GPU相比,有兩個數量級上的提升。
昇騰910更是集成了32個立方體計算引擎,能夠輸出256TFLOPS(每秒256萬億次浮點指令),所以昇騰910不僅是一個AI芯片,更是一個高度集成的片上系統(tǒng),集成了CPU、DVBP及任務管理器。
同時昇騰910擁有自治能力,使其可以獨立完成整個AI訓練流程,最小化和Host的交互,從而發(fā)揮其強大的算力。
再看昇騰910的通信機制,昇騰910集成了HCCS、PCLe和RoCE三種高速接口,其中自研的HCCS可以提供單接口240Gbps的傳輸,從而實現芯片構建訓練系統(tǒng)的性能和靈活性的大幅提升。
華為也表示,將繼續(xù)面向未來投資,針對不同場景進行研發(fā),提供更強大經濟的算力需求。昇騰310、昇騰910僅僅是一個開始,未來將推出昇騰920。
在價格上,華為也表示,這款芯片的售價還沒有確定,但是絕不會高于同性能芯片的售價。
發(fā)布首款國產全場景AI計算框架——MindSpore
接下來,華為還發(fā)布了一款全場景AI計算框架——MindSpore。
徐直軍表示,目前國內還沒有一款能夠對標Tensorflow的全場景AI計算框架,MindSpore希望能夠彌補國內的這一空白。
在性能上,MindSpore對開發(fā)者非常友好,能夠有效減少模型開發(fā)時間,降低開發(fā)門檻。相同場景需求下,減少模型代碼量20%,效率能夠整體提升50%以上。
具體來說,MindSpore自動微分采用Source 2 Source方式實現,在性能和可編程性上,明顯優(yōu)于業(yè)界圖和運算符重載方式,同時能夠實現任意算子的微分表達和編譯優(yōu)化,實現反向算子自動生成,從而極大方便模型開發(fā)。
隨著數據集和模型規(guī)模越來越大,模型并行成為必然,手工切分的模型并行存在門檻高、效率低、調優(yōu)難的缺陷,而MindSpore只需要定義單機模型,即可實現多機混合并行運行,無需了解AI集群細節(jié)。
MindSpore同時支持靜態(tài)圖和動態(tài)圖,且可用一條語句實現無縫切換,從而讓調試也變得簡單而高效。
不僅有開發(fā)態(tài)的高效,運行態(tài)的友好同樣是MindSpore的追求目標。MindSpore大大提高了運算性能,并且除了支持華為的昇騰910外,也支持其他業(yè)界其他CPU、GPU。
MindSpore還提供了Ascend Native運行技術,助力昇騰算力最佳發(fā)揮。主從控制模式中,CPU和GPU交互,引入內存和數據開銷,在芯片上完成神經網絡模型所需要的所有控制和執(zhí)行。
至于很多人問為什么有了TensorFlow還要開發(fā)MindSpore,徐直軍表示:目前沒有任何一個國產框架支持全場景。華為目前的業(yè)務包括云、端、邊,這些都需要全場景支持的AI框架。在不同的運行環(huán)境中,架構上支持可大可小,適應全部場景部署。
在隱私保護方面,MindSpore不帶有隱私信息的梯度模型,能夠在保證保護用戶隱私的前提下,跨場景協(xié)同。
總的來說,支持端、邊、云獨立和協(xié)同的統(tǒng)一訓練和推理的MindSpore計算框架,降低了AI的開發(fā)和使用門檻,釋放AI生產力,最大程度發(fā)揮AI芯片算力潛力,從而鼓勵開發(fā)人員共同打造AI生態(tài),推動AI產業(yè)落地。
華為稱,MindSpore將在明年一季度開源,讓更多開發(fā)者參與將MindSpore打造好。
華為全場景AI構建方案完成
最后,讓我們再回顧一下華為去年發(fā)布的AI五大戰(zhàn)略:
投資基礎研究:在計算視覺、自然語言處理、決策推理等領域構筑數據高效(更少的數據需求)、能耗高效(更低的算力和能耗),安全可信、自動自治的機器學習基礎能力
打造全棧方案:打造面向云、邊緣和端等全場景的、獨立的以及協(xié)同的、全棧解決方案,提供充裕的、經濟的算力資源,簡單易用、高效率、全流程的AI平臺
投資開放生態(tài)和人才培養(yǎng):面向全球,持續(xù)與學術界、產業(yè)界和行業(yè)伙伴廣泛合作,打造人工智能開放生態(tài),培養(yǎng)人工智能人才
解決方案增強:把AI思維和技術引入現有產品和服務,實現更大價值、更強競爭力
內部效率提升:應用AI優(yōu)化內部管理,對準海量作業(yè)場景,大幅度提升內部運營效率和質量
而今年芯片和計算架構的發(fā)布,也是華為對這一戰(zhàn)略的落地實踐。這也標志著華為全場景AI構建方案完成。
目前從世界范圍來看,在桌面CPU上,Intel和AMD處于絕對的統(tǒng)治地位;GPU方面,則是英偉達在領跑;至于手機處理器,則基本握在了ARM手中。盡管華為有備胎計劃,但是性能方面預計很難超過這些技術成熟、人才資本雄厚的企業(yè)。
深圳半導體協(xié)會秘書長常軍鋒曾指出,國外半導體巨頭通過國際標準、行業(yè)標準、專利保護建立了技術壁壘。
AI芯片,則成為了國產芯片彎道超車的絕佳機會。
AI芯片從發(fā)育到成熟落地,國內基本和國外大廠處于同一起跑線上,并且如今華為昇騰系列已經商業(yè)化,昇騰910作為是目前單芯片計算密度最大的芯片,計算力也超過了谷歌及英偉達競品。
-
華為
+關注
關注
216文章
35060瀏覽量
255187 -
AI
+關注
關注
88文章
34405瀏覽量
275659 -
AI芯片
+關注
關注
17文章
1971瀏覽量
35707
發(fā)布評論請先 登錄
華為AI WAN智算IP廣域網助力算力互聯網建設
大算力芯片的生態(tài)突圍與算力革命
DeepSeek推動AI算力需求:800G光模塊的關鍵作用
安霸大算力AI芯片接入DeepSeek R1

算智算中心的算力如何衡量?

企業(yè)AI算力租賃模式的好處
企業(yè)AI算力租賃是什么
億鑄科技熊大鵬探討AI大算力芯片的挑戰(zhàn)與解決策略
AI算力芯片供電電源測試利器:費思低壓大電流系列電子負載

存算一體架構創(chuàng)新助力國產大算力AI芯片騰飛
【「算力芯片 | 高性能 CPU/GPU/NPU 微架構分析」閱讀體驗】--全書概覽
中國算力大會召開,業(yè)界首個算力高質量評估體系發(fā)布

評論