近日,在華為中國合作伙伴大會期間,昇騰人工智能伙伴峰會在深圳正式召開。會上,華為昇騰計算業務總裁張迪煊發表了《與時代 共昇騰》的演講。他表示,長思考能力將scaling延展到推理,集群推理成為大模型推理系統的標配,昇騰率先落地大規模專家并行方案,平均單卡性能提升到原來的3~4倍。
全文如下
尊敬的各位領導、各位來賓,線上/線下的伙伴們、朋友們,大家下午好!很高興和大家相聚在合作伙伴大會計算峰會的現場。當下,人工智能已經成為推動世界發展的核心驅動,昇騰作為智能化底座,在各位伙伴和開發者朋友們的共同支持和努力下,得到了快速發展。我謹代表華為昇騰計算業務,再次感謝大家,歡迎大家的到來!
今天我的演講主題是:與時代 共昇騰!
每年,AI都在突破我們預設的認知邊界,從圖像識別到藝術創作,從信息檢索到邏輯推演,每一天都是探索的起點。朋友們,你準備好每年重啟一次認知邊界了嗎?
唯有持續創新才能與時代同頻
認知的突破源于技術的躍遷。2012年,機器視覺完成從理論到應用的蛻變;10年后,ChatGPT完成從感知理解到生成創造的跨越;不到2年,Sora實現從語言到視覺的銜接;僅1年,DeepSeek又實現從內容生成到邏輯推理的進化;多模態、長序列、思維鏈、強化學習等技術的密集爆發,推動模型迭代進入指數級加速的新紀元。時代的變化永不停歇,唯有持續創新才能與時代同頻。應用的創新已經不再圍繞單模型能力,而是發揮每個模型專長,協同增效。每次長思考的邏輯推理,都會帶來額外20倍的token生成,隨之而來的是百倍的推理算力需求,AI推理也從“單卡加速”走向“分布式推理加速”,需要在性能與收益之間找到最佳平衡。
如今,業界不僅在模型結構上創新,還延伸到“訓推全流程”的工程創新,下探到底層硬件資源的極致利用。
這些變化激發著AI創新的覺醒。伴隨著越來越多的企業、高校、科研機構及開發者的加入,人工智能產業將迸發出更加旺盛的創新活力,也是構建自主AI生態的黃金時期,未來充滿想象與機遇!
2025進入大模型應用元年
DeepSeek揭開了AI自主創新的序幕,高質量模型+后訓練范式大幅提升行業模型效果,降低行業落地門檻,帶來技術平權。
AI開發從“實驗室特權”變為“全民工具箱”,中小團隊占據了AI創新的半壁江山;需求驅動行業場景倍增,讓應用不再聚焦于頭部企業,而是在千行萬業的業務流中涌現。
我們都知道,移動互聯網時代,流量是衡量產業發展的量綱;AI時代,Tokens成為新的衡量標準,2024年年初,中國日均Token消耗量為1千億,今天每日消耗量已達到了十萬億級,1年增長100倍。
我們將以“中國速度”迎來大模型的應用元年!
昇騰攜手伙伴與時俱進
在創新的道路上,昇騰與時共進,加速前行。
今年春節前夕,DeepSeek R1快速席卷了國內外AI技術圈及產業界。而昇騰早在去年年中,DeepSeek V2發布的時候,就已經聯合幻方團隊完成了模型結構適配及性能的調優。
依托已沉淀的經驗和技術積累,昇騰幾乎在R1上線的同時就完成了昇騰版本的發布。同時在春節期間,昇騰也與伙伴硅基流動共同作戰,迅速面向全國用戶第一時間提供DeepSeek的線上服務,在新春的煙花點亮夜空時,為大家獻上AI的厚禮。如今,硅基新增用戶數突破了300萬,增長了800%!
春節隨后的2周,當國內友商還在探索適配DeepSeek的時候,昇騰已經圍繞融合算子、通信優化、并行加速、推理系統、強化學習 5大方向實現工程技術創新,讓一體機性能實現翻番。并率先落地大規模專家并行技術,讓推理性能實現再翻番,支撐伙伴抓住推理新機遇。
同時昇騰率先完整復現Open-R1后訓練全流程,并將能力沉淀成套件及解決方案,開放給伙伴,支撐伙伴抓住后訓練新機遇。
春節過后的一個月,已有超過80個伙伴基于昇騰落地大模型應用一體機、國內25城人工智能計算中心也全都上線DeepSeek,為本地的高校、企業及科研院所提供即時可用的服務。
目前已有超過150家企業基于昇騰部署上線DeepSeek,比如:
龍崗政數局是第一家上線DeepSeek的政府部門,為全區兩萬多名公職人員提供政務辦公、城市治理、民意速辦等服務;
東南大學依托昇騰算力平臺本地部署,在校園網內,師生通過訪問鏈接,可無限次免費體驗“滿血版”DeepSeek,徹底告別“服務器繁忙”困擾。服務上線即刻引發使用熱潮,上線一小時,用戶訪問數即突破千人;上線近一周,日均生成超1億token 。
這些成果離不開每一位伙伴的付出,感謝各位伙伴一路陪伴,與昇騰同行!
昇騰AI基礎軟件棧全新升級發布
一直以來,昇騰堅持聚焦根技術創新,并結合業界的反饋和建議,不斷迭代和演進各個能力組件,以滿足不同時期的需求。今天,面向大模型深度創新的時代,昇騰全新升級昇騰AI基礎軟件棧!
在架構上,面向不同開發訴求及場景,實現了更清晰的分層:
硬件使能層CANN深度開放,從上層圖引擎到底層運行時,從融合算子到通信算法,釋放硬件極致性能,使能伙伴及客戶自主創新。AI框架層支持業界生態,早在2023年10月Pytorch開源社區就已官方宣布支持昇騰,上個月,vLLM開源社區也已官方宣布擁抱昇騰,這意味著當前所有訓練和推理上的創新都可以基于昇騰快速實現。同時,昇思在大家的貢獻下,也在持續演進,最近,鵬城實驗室基于昇思發布GRPO強化訓練框架,率先突破了大模型強化學習技術全棧壁壘。
應用使能層沉淀極致加速能力,訓練加速庫實現從單任務加速到多任務加速;推理引擎支持從單卡加速到大規模專家并行集群的極致加速。
從預訓練到后訓練,使能模型高效創新
無論是預訓練還是后訓練,都需要基于業務數據快速迭代,Time to Accuracy是最關心的指標之一,也代表著企業投入訓練的成本。
面向預訓練,昇騰通過超節點集群架構創新滿足前沿模型探索,依托高速總線互聯,混合并行加速等技術,訓練效率提升2.7倍;同時,基于CCAE集群故障預測及斷點續訓的能力,大規模集群平均無故障運行時間從幾小時提升到幾天,支撐客戶更短時間完成基礎大模型預訓練。
強化學習技術的成熟,讓每個企業都有機會打造屬于自己的“R1模型”。
昇騰率先復現了后訓練全流程,并沉淀成套件及解決方案,使能所有伙伴和客戶更敏捷迭代匹配場景的行業模型。
今天,昇騰將發布業界首個強化學習開發套件MindSpeed RL。
業界首個強化學習開發套件MindSpeed RL提供了從數據準備、模型獲取到訓練啟動、模型評估的全流程工具、腳本及算法,并在Gitee上開源,致力于通過能力及技術賦能,降低后訓練門檻,助力伙伴及客戶構建更強大的后訓練系統。強化學習是一個通過“探索 - 反饋 - 優化” 循環實現智能決策的過程,涉及到訓練與推理系統的頻繁交互,這對訓推系統間數據同步效率及通信效率提出了更高的挑戰。昇騰提供了業界首個大規模MoE訓推共卡強化學習技術,通過訓推參數同步、權重動態轉換、共卡調度控制實現千億參數規模下的訓推共卡切換,節省訓練資源的同時,提升交互效率。同時,面對生成、前向、訓練三個核心環節中相互等待的問題,昇騰提供了創新的多模型異步流水調度方案,利用MBS動態內存優化切分技術,將通信與計算充分并行,實現流水掩蓋,相較于原始GRPO算法,可以將流水掩蓋性能提升10%以上。歡迎大家在Gitee上下載使用,打造自己的行業R1模型!
率先實現大規模專家并行方案
長思考能力將scaling延展到推理,Tokens已經成為衡量推理系統的唯一標準,集群推理成為大模型推理系統的標配,系統即要確保用戶的低時延響應,又需要提高整體吞吐,以最大化推理的經濟價值。
為了實現大模型推理的極限計算,昇騰從算子到推理系統全面創新。針對MoE架構,國內首創大規模專家并行方案,通過將MoE模型的多專家權重數據分散部署到更多的卡上,降低單卡權重加載時延,讓模型解碼輸出更快;同時,單卡內存容量占用的降低,能夠支持更大用戶并發所需的KV緩存,實現系統的更大吞吐性能。
復雜的并行方案帶來了更多的通信開銷,昇騰獨創雙流并行等優化技術,通過計算、訪存、通信的相互掩蓋,將all2all通信時延降低50%;提供PA+MLAPO融合算子將計算耗時降低70%;通過多專家動態均衡,實現20%以上的資源利用率提升。
就在上周,昇騰與科大訊飛攜手,發布了國內首個大規模專家并行方案,也是繼DeepSeek公布其MoE模型訓推方案后,業界首個基于自主創新的算力平臺的全新解決方案。平均單卡性能提升到原來的3~4倍。面向未來,昇騰將持續在此基礎上疊加超節點等更多的創新技術,單卡性能可以再次提升5~10倍以上,持續保持大規模吞吐領先。
一體機解決方案加速伙伴AI應用落地
面向中小企業、學校和醫院等機構需要快速部署、快速落地AI應用的需求,昇騰聯合合作伙伴提供基于昇騰的一體機解決方案。昇騰為伙伴提供高性能、易部署的AI基礎軟硬件底座,使能伙伴打造豐富多樣、開箱即用的一體機產品。華鯤振宇的一體機方案已經部署在成都區域政務服務大廳中,提升服務效率。
從模型部署、推理加速到應用上線,昇騰都為伙伴提供了業界領先的方案支持。量化、調優等工具鏈顯著提升50%部署效率;MLA親和等特性,讓伙伴的大模型應用一體機吞吐性能提升90%;服務化能力支持應用天級上線。
目前已有超80家合作伙伴基于昇騰發布大模型應用一體機方案,為金融、政府、能源、制造、教育等廣泛行業場景提供智能應用,加速AI落地行業。
推理引擎MindIE持續升級
今年2月份,vLLM開源社區宣布了與昇騰的對接,實現昇騰與開源版本0 Day演進,開發者可基于昇騰使用vLLM全量功能,無感切換。
同時,通過MindIE Turbo推理加速插件,可以為vLLM提供并行策略、投機解碼、動態調度等的高階優化特性,在vLLM基礎之上進行深度優化,吞吐可提升20%以上,獲得極致性能體驗。
中國工商銀行基于MindIE部署了滿血版DeepSeek,通過量化、MLA、多專家均衡等技術支撐,較初始版本實現了數倍的推理性能提升,目前已在行內大規模部署,支持萬級日訪問量,為數十萬員工提供服務。
智駕已成為新能源車標配,L2及L2+智駕滲透率已經從2024年的66%提升到了80%。伴隨而來的是智駕模型規模提升、數據采集規模變化以及訓練節奏的加快,數據的快速閉環以及模型天級迭代成為智駕訓練的剛需。
今天,昇騰也將為大家帶來全新的Driving SDK 昇騰自動駕駛訓練套件。支持感知、預測、決策及規控類模型開發,提供數據標注、難例挖掘、場景理解及重建能力,加速自動駕駛數據閉環;在智駕模型開發上,預置50多種主流的智駕模型開箱即用,分鐘級完成自有模型搭建;在模型性能上,提供超50個高性能智駕算子,滿足目標檢測、點云等場景需求,模型性能提升30%以上;套件中的模型及算子也全量開源在Gitee上,并提供豐富的參考設計,切實幫助伙伴及客戶提升自定義開發效率。
昇騰聯合華為車BU,將該套件應用于ADS智駕系統的開發中,大幅縮短ADS 3.0模型訓練時長,實現天級上線。
堅持圍繞五大創新方向發展AI產業生態
昇騰的生態發展離不開每一位伙伴的共同努力。
在過去的一年時間里,昇騰堅定圍繞硬件、算子、加速庫、模型及應用五大創新方向,攜手伙伴,共同發展。現在,已經取得了豐富的成果。今年,昇騰將持續加大生態投入,從技術、政策、生態及激勵幾個維度持續為伙伴提供支撐:升級布道師隊伍,加強技術賦能;深化昇騰萬里伙伴計劃,通過開發、市場、算力等專項激勵,賦能伙伴打造更有競爭力的產品和解決方案;歡迎更多的伙伴加入到昇騰五大創新方向,共同發展可持續、有韌性的AI產業生態!
昇騰將聚焦在自己所擅長的產品和技術領域,持續深耕。
面向不同行業、不同階段的伙伴及客戶,提供從模組到板卡到服務器的全系列硬件產品,全面開放軟件棧,包含豐富的算子、加速套件、工具鏈等,支撐好伙伴及客戶打造差異化產品和解決方案,加速智能化升級。
-
華為
+關注
關注
216文章
34823瀏覽量
254189 -
人工智能
+關注
關注
1801文章
48257瀏覽量
243345 -
昇騰
+關注
關注
1文章
151瀏覽量
6772
原文標題:華為張迪煊:與時代,共昇騰!
文章出處:【微信號:HWS_yunfuwu,微信公眾號:華為數字中國】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
2025昇騰AI開發者創享日浙江站成功舉辦,現場演示OrangePi AIpro(20T)部署DeepSeek模型開發全流程

潤和軟件將持續深化“昇騰+DeepSeek”技術路線
迅龍軟件出席華為昇騰APN伙伴大會,獲昇騰APN鉆石伙伴授牌及兩項大獎

喜訊 英碼科技受邀出席華為昇騰APN伙伴大會,正式成為「昇騰鉆石部件伙伴」,喜獲多個重磅獎項!

評論