一、前言
隨著大模型的廣泛應用,作為人工智能三大支柱之一的AI算力,已經成為競爭的焦點。從模型訓練到推理,算力存在于大模型生命周期的每一環,極大程度地影響著模型在實際業務場景的性能與效果。面對京東海量數據的各種場景,缺乏堅實的算力基礎就猶如高樓大廈沒有穩固的地基,上層的算法/數據無法發揮其作用。
而隨著美國相繼出臺的高端AI芯片禁令,如何保障集團的算力安全成為一個我們無法回避的問題。2024年12月3日,中國半導體行業協會、中國汽車工業協會、中國互聯網協會、中國通信企業協會集體發布聲明,針對美國對華采取的出口限制表示堅決反對,認為美國相關芯片產品不再安全、不再可靠。四協會建議相關企業謹慎采購美國芯片,擴大與其他國家和地區芯片企業合作,積極使用內外資企業在華生產制造的芯片,呼吁中國政府支持可靠半導體產品供應商的穩定發展。
如何在京東業務場景讓國產芯片可用、好用,是一個亟需解決的問題。然而,我們發現這并非易事,存在著以下挑戰:
1. 硬件架構差異顯著
在過去,京東底層算力集群主要圍繞GPU進行建設,而國產NPU與GPU硬件架構差異大,且京東零售業務場景訴求多樣、數據與模型體量龐大,需提升集群對多種異構芯片的兼容性及統一靈活調度能力,充分挖掘國產芯片算力,從而保障集群中不同類型的國產芯片被最大化利用的同時,能夠有序、高效地為業務提供算力支持。
2. 軟件生態尚未成熟
當前各開源模型或訓練推理框架并不直接提供針對國產NPU的解決方案,而國產NPU軟件生態尚不成熟。這意味著開發人員從 GPU 遷移至國產NPU包含精度校驗、性能調優等復雜的適配工作,面臨著巨大的遷移成本,嚴重影響算法開發與業務迭代效率。
我們看到,GPU芯片能成為大多數人第一選擇的原因,核心并不在于其產品硬件性能更強,而是因為他們構建了十分完善的CUDA生態。開發人員基于GPU的開發工作無需感知底層硬件的架構,能夠更加關注模型開發與業務邏輯。
3. 業務場景需求多樣且復雜
京東零售業務場景豐富復雜,各場景在模型選型、性能要求等方面差異巨大,解決方案不僅需要高效、統一,還必須能夠靈活適配各業務場景,實現“1套方案、N種應用”。
?
以PyTorch為例,通用模型從GPU遷移至華為昇騰NPU流程示例,圖像來自昇騰官網模型開發文檔?
?
以上痛點的核心在于,缺乏一套基于國產NPU的端到端訓練推理解決方案,支持算法人員無感知地從GPU遷移至國產NPU。在此背景下,九數算法中臺從集群網絡到訓練推理引擎建設,推出了高效、統一、靈活的基于國產芯片的AI引擎技術。在接下來的章節,將為您詳細介紹九數算法中臺如何搭建起這樣的生態系統,使得國產芯片在京東零售“落地有聲”。
?
二、基于國產芯片的AI引擎技術
2.1 整體技術架構
項目架構圖
?
2.2 GPU與NPU異構混合調度系統
為了保障京東零售業務場景多樣復雜的芯片使用訴求,九數算法中臺基于高性能計算網絡搭建千卡規模集群,支持國產NPU與GPU相同的調度能力,通過統一的配額分配、調撥體系支持開發人員無感知靈活調度國產NPU與GPU。由于算力資源長期處于滿負荷運行狀態,九數算法中臺采取了多種措施來最大程度助力算法同學極致利用算力資源、更高效地完成算法工作,在保證業務穩定、易用基礎上提升資源利用率,節約集團IT資源成本,充分挖掘NPU硬件能力,實現國產NPU芯片到從“單片可用”跨越至“集群好用”:
?千卡集群:為保障千卡規模以及RDMA互聯網絡模式下的集群穩定性,九數算法中臺支持了全面的可視化監控系統,涵蓋了NPU卡、網卡、光模塊等關鍵組件,還支持了NPU卡健康檢查、故障自動隔離,故障上報業務容器與自動告警能力,以便業務可以及時干預和解決問題。另外持續跟進新版本HDK,不斷提升集群的穩定性。
?調度優化 :調度算法在NPU服務器獨特的卡互聯拓撲結構上兼容了原有GPU上的優化,兼顧算法任務性能、集群利用率與業務公平。關鍵特性如:
?NUMA感知和網絡拓撲感知調度:識別CPU NUMA和網絡拓撲,確保任務被分配到最優的計算和網絡資源上,從而最大化任務的執行效率。
?資源碎片最小化:采用了多種調度策略,如Gang、BinPack和節點資源預留,來減少資源的碎片化,提高集群的整體占用率。
?可配置的優先級驅逐機制:該機制為用戶提供了配額保障和搶占能力,確保重要任務能夠及時執行。同時,它也支持根據任務的優先級隊列來維護業務之間的公平性,提供更好的用戶體驗。
?高效使用:為了給用戶提供更靈活的計算資源以及更好的利用集群資源,國產NPU與GPU共同遵循資源隊列機制。資源隊列是為了關聯某一資源隊列的用戶提供保障資源量(MIN)和共享資源量(MAX),多個資源組通過關聯資源隊列的方式,既可有一定資源的保障量,同時可共享集群空閑資源,從而提高集群資源整體的使用率,進而達到國產NPU的最大化利用。
?
2.3 高性能訓練引擎
九數高性能訓練引擎,經過深度優化和架構升級,完成對超過40種涵蓋LLM、多模態等主流底座模型的全面適配和優化,包括但不限于LLM、多模態系列和文生圖、文生視頻系列,實現了對NPU算力的全面兼容。該引擎采用高度抽象的API接口,實現了一套API下NPU和GPU用戶無感、0成本無縫切換訓練,為京東零售算力提供了堅實的安全保障;同時通過集成模型并行、序列并行,低精度通信,通信計算融合等技術,大幅提升了模型訓練的吞吐量,為京東零售的智能計算提供了強有力的支撐。其主要特性如下:
?覆蓋主流LLM、多模態底座:30+ LLM、10+ 多模態主流底座模型覆蓋,一套API下NPU和GPU用戶無感、0成本無縫切換訓練。
?覆蓋LLM訓練全流程:涵蓋從數據、訓練模式,打標/評測離線全鏈路能力,支持3類數據生成方式、11類指令/對齊微調能力、20類通用/垂類評測。
?軟硬協同深度優化:通過Triton編譯和CANN融合技術對熱點算子(如flash attention、rotary_embedding、npu_matmul_add_fp32等)進行精細調優,實施鋸齒Attention、動態輸入拼接、全子圖下發以及重計算流水線的獨立調度和自適應重計算等深度優化措施,實現了百卡 MFU達60%。同時,通過權重更新通信隱藏、CoC計算通信并行、啟發式自動并行策略搜索、BF16低精度通信和多機間RDMA通信等技術,達到了百卡擴展系數0.93,從而實現了千億至萬億參數模型訓練的近線性橫向擴展。
?高可用性訓練能力:采用Token預緩存技術和分鐘級的異步Checkpoint保存機制,結合按需快照即時下發,將啟動時間從小時級別降至分鐘級別,同時將模型存時間減少了超過90%,整體訓練效率提高了15%,確保在發生故障時能夠迅速恢復訓練任務。
模型 | 規模 | 離線訓練 | 高效離線推理 | ||
GPU | 國產NPU | GPU | 國產NPU | ||
SR1.5 搜推電商領域大模型 | 3B/7B/15B | ? | ? | ? | ? |
Qwen2.5 | 0.5B/1.5B/3B/7B/14B | ? | ? | ? | ? |
Qwen2.5 | 34B/72B | ? | ? | ? | ? |
ChatGLM2 | 6B | ? | ? | ? | ? |
ChatGLM3 | 6B | ? | ? | ? | ? |
GLM4 | 9B | ? | ? | ? | ? |
Qwen | 1.8B/7B/14B | ? | ? | ? | ? |
Qwen-1.5 | 0.5B/1.8B/4B/7B/14B | ? | ? | ? | ? |
Qwen-1.5 | 32B/72B/110B | ? | ? | ? | ? |
Qwen-2 | 0.5B/1.5B/7B | ? | ? | ? | ? |
Qwen-2 | 72B | ? | ? | ? | ? |
LLama2 | 7B/13B | ? | ? | ? | ? |
LLama3 | 8B | ? | ? | ? | ? |
LLama3 | 70B | ? | ? | ? | ? |
LLama3.1 | 8B | ? | ? | ? | ? |
LLama3.1 | 70B | ? | ? | ? | ? |
YI | 6B/34B | ? | ? | ? | ? |
YI-1.5 | 6B/9B | ? | ? | ? | ? |
YI-1.5 | 34B | ? | ? | ? | ? |
Baichuan2 | 7B/13B | ? | ? | ? | ? |
Bloom-z | 7B | ? | ? | ? | ? |
Gemma | 2B/7B | ? | ? | ? | ? |
九數訓練引擎LLM模型支持概況
?
在使用NPU進行模型訓練時,開發人員無需進行精度對齊、框架適配等工作,僅需基于實際業務訴求,關注數據準備、參數配置、驗證評估等訓練流程,選擇NPU對應型號,即可快速提交訓練任務,實現基于NPU業務的高效迭代優化。
?
2.4 高性能推理引擎
與訓練引擎類似,九數算法中臺針對國產NPU建設高性能推理引擎,支持MaaS開箱即用部署(服務化部署托管),實現基于國產NPU的一鍵部署,內置20+業界通用LLM大模型。通過模型量化、編譯優化等手段進行推理加速,滿足業務在大模型場景下對于高效問答的訴求,性能相比業界開源框架提升20%。
?MaaS開箱即用:基于九數EA部署,實現昇騰NPU的一鍵部署,API兼容OpenAI和Triton協議,支持流式推理,與GPU方案保持一致。
?主流SOTA模型支持:支持Baichuan、ChatGLM、Qwen、Llama等20+主流模型的端到端推理;
?性能優化:
?模型優化:計算方面通過GE圖編譯優化和ATB高性能算子技術對Paged Attention、Flash Attention、Sub_Mul_Concat等操作進行深度優化,實現整圖下發能力,通過算子setup(workspace、tiling)、下發、計算實現流水線并行,有效隱藏了算子調度開銷。同時支持W8A8 SmoothQuant量化、W4A16 AWQ量化技術,顯著較少了計算量與訪存密度。
?框架優化:調度方面實現了Prefill/Decode分離技術,在部分場景下有效提高推理速度,通過KV cache、Prefix cache等緩存技術減少重復計算。
?監控告警體系:支持可視化監控系統,包括服務吞吐、失敗率、整體延時等服務化監控指標。同時,用戶也可根據實際需求配置對應指標的告警系統。
類別 | 當前支持模型 |
LLM | Baichuan2-7B |
Baichuan2-13B | |
ChatGLM2-6B | |
ChatGLM2-13B | |
ChatGLM3-6B | |
Qwen-1.8B | |
Qwen-7B | |
Qwen-14B | |
Qwen-72B | |
Qwen-VL | |
Qwen1.5-1.8B | |
Qwen1.5-7B | |
Qwen1.5-14B | |
Qwen1.5-72B | |
Qwen2-7B | |
Qwen2-72B | |
Llama2-7B | |
Llama2-13B | |
Llama2-70B | |
Llama3-8B | |
BLOOM-7B | |
Gemma-7B | |
internlm | |
多模態 | SD1.5 |
SDXL | |
Mistral-7B |
九數推理引擎NPU支持模型概況
?
同時,在大規模搜推廣場景,本項目也支持基于NPU的搜推廣模型推理,通過開發融合Pass及融合kernel,滿足搜索推薦廣告系統對于在線推理服務高吞吐、低延遲的訴求。
?
三、落地場景
?案例一:視頻內容Tag云標簽生成場景
多模態大模型在京東零售業務場景存在廣泛的應用,而算力是影響圖像、視頻計算任務的關鍵卡點。其中,數字內容相關業務期望基于NPU,利用Qwen2 VL模型對視頻的多模態信息進行分析,抽取能夠表征視頻的一系列關鍵詞。但當前Qwen2 VL開源代碼僅支持GPU推理,暫未提供NPU解決方案,Qwen2 VL運行在國產NPU上存在算子優化、推理加速等適配工作。
通過使用九數算法中臺的NPU高性能推理框架,業務可將模型快速部署至線上場景。業務僅需選擇模型與NPU資源量,即可完成模型的在線部署,無需關心Qwen2 VL從GPU遷移至NPU的繁瑣流程。
目前,該案例共部署數十卡國產NPU,用于內容Tag云標簽生成工作,與GPU比對效果無明顯差異。在輸出Token數量一致的前提下,二者平均響應時長基本保持一致。
?
?案例二、物流大模型場景
如何將國產芯片和物流場景有機結合,是電商領域亟需解決的問題。
在京東物流大模型場景中,業務方期望基于910B將Qwen2-7B在地址解析、地址編碼、地址分類等任務進行上訓練。由于Qwen2-7B開源項目未提供NPU訓練方案,該業務利用九數算法中臺提供的統一訓練框架,基于框架底座開源模型進行了Pretrain、SFT、RL適配。
基于NPU微調的模型與基于GPU微調的模型在地址解析等任務的訓練結果分別達到了91.03%與91.08%,二者表現基本一致。目前,基于NPU的訓練產物已應用在多個業務場景中。在預分揀分單場景已上線多個省份,在地址分類任務上已經刷新4600萬條母庫POI數據的多級分類標簽,在人工預分揀地址異常識別中每天識別3萬條以上地址。
#Input_1 青海省西寧市城北區三其村。 可以發圓通嗎 謝謝。 #Output-NPU(國產NPU) 青海省_1,西寧市_3A,城北區_3A,三其村_4B, _5A-1,可以發圓通嗎 謝謝_UNK, #Output-GPU(GPU) 青海省_1,西寧市_3A,城北區_3A,三其村_4B, _5A-1,可以發圓通嗎 謝謝 _UNK
?
?案例三、商家側智能助手
基于大模型的客服Agent已成為電商領域的新趨勢。其中,在商家側智能助手的案例中,業務側期望使用過往沉淀QA數據,基于Qwen1.5 7B進行微調,實現模型針對商家問題進行分析,并將任務分配給下游工具處理。
由于Qwen1.5系列開源模型暫未提供針對NPU的微調方案,該案例利用九數算法中臺提供統一訓練框架,基于框架底座開源模型進行微調。
通過測試對比,國產NPU微調的模型與基于GPU微調的模型分析結果相似,且96%問題分配下游工具相同。對比模型分配的工具(pred_tool)和人工標注的工具(tool_gt)并綜合打分,二者得分相近。
#Input_1 上架寶貝數怎么看? #Output-國產NPU {...'tool_name':' business_expert, 'query':'如何查看已上架的商品數量?'...} #Output-GPU {...'tool_name':' business_expert, 'query':'如何查看已上架的商品數量?'...} #Input_2 為啥我不能提報活動了? #Output-國產NPU {...'tool_name':' business_expert, 'query':'為什么商家不能提報活動,以及如何解決提報問題?'...} #Output-GPU {...'tool_name':' business_expert, 'query':'商家無法提報活動的可能原因及解決方案是什么?'...}
四、應用價值
目前,京東零售基于國產芯片的AI引擎技術已在十余個業務場景落地,為加速國產芯片破局、打造開放生態探尋新思路。
?核心技術自主且可控:通過使用國產算力芯片,有效降低了對海外芯片的依賴,確保了算法與算力方面的安全性。這一自主可控的技術體系涵蓋底層硬件至上層應用,使京東零售在快速變化的國際環境中保持穩健和高效的運轉。
?國產芯片應用性提升:國內電商領域業務的復雜性和多樣性為國產算力的應用提供了廣泛的實踐機遇。當前的引擎能力已應用于搜索推薦、廣告創意生成、智能客服和數據自動分析等多個場景。通過這些實踐,不僅顯著提升實際業務效能,也為國產算力在真實商業環境中的應用提供了寶貴的經驗反饋,從而反哺國產算力技術生態發展、成熟、普惠。
?
五、行業影響力
在實現了基于國產算力的一系列技術突破后,我們將沉淀的技術經驗進一步轉化為在集團內外的影響力,彰顯京東零售的技術領先性和行業責任感:
?2024年,京東零售開始作為理事單位,與華為昇騰共建Openmind開源社區;
?7月,在上海舉辦的昇騰人工智能產業高峰論壇上,京東作為華為昇騰邀請11家生態伙伴及客戶中的一員,聯合華為發布了基于昇騰大模型推理解決方案的五大場景優秀實踐。
?7月,基于國產芯片的AI引擎技術項目榮獲京東零售平臺產品與研發中心618大促技術敢打獎。
?9月,在第九屆華為全聯接大會(HUAWEI CONNECT 2024)上,項目主力成員獲得優秀昇騰原生開發者的獎項。
24年7月,昇騰大模型推理解決方案正式發布暨五大場景優秀實踐,圖源昇騰官網新聞資訊:https://www.hiascend.com/activities/dynamic-news/451?
?
?
六、未來規劃
?萬卡集群建設
隨著業界主流模型體量不斷擴大,百B甚至千B級模型的訓推訴求愈發迫切。為了滿足京東零售在大規模計算場景的訴求,集群將在25年實現萬卡級別高性能網絡及調度能力,助力大體量模型業務發展。同時,九數算法中臺將持續擴充集群支持的芯片類型,允許GPU、國產NPU在集群內被混合調度。通過這樣的集群生態建設,一方面能夠讓京東算法業務不依賴于單家廠商,保障了集團的算力安全和可持續發展;另一方面,也讓算法業務在算力調度上有更加多元的選擇。
除了進行集群的升級,九數算法中臺還將進一步優化國產芯片的調度策略,通過應急資源池、資源智能預測、動態擴縮容等手段保障各業務都能夠合理、高效地用上國產芯片,全面挖掘國產芯片算力性能。
?國產算力生態建設
京東零售將在2025年持續深入與國產頭部芯片廠商的合作,共同助力京東零售AI數智化,作為華為昇騰AI解決方案競爭力和軟件生態核心貢獻者。
針對自研訓練引擎在LLM場景的支持,九數算法中臺將深入HCCL底層通信優化,建立融合算子庫全面優化性能,達到百卡/千卡MFU可至60%。針對CTR訓練場景,九數算法中臺將建設業界首個同時支撐昇騰 NPU和GPU的性能領先的CTR大規模訓練框架,并考慮建立開源生態,支持業務無感遷移,落地在主站推薦精排、主站搜索精排場景。
針對自研推理引擎在LLM場景的支持,九數算法中臺將通過共建昇騰加速ATB算子庫,擴展LLM前后處理能力及LVM等模型,性能能夠達到業界SOTA;針對CTR推理場景,建設9N-Predictor NPU推理引擎,支持GPU/NPU異構推理,并通過共建GE自動融合優化引擎編譯能力,最大程度發揮NPU在推薦場景的極致性能。
審核編輯 黃宇
-
芯片
+關注
關注
459文章
52433瀏覽量
439754 -
AI
+關注
關注
88文章
34964瀏覽量
278458 -
京東
+關注
關注
2文章
1023瀏覽量
49245
發布評論請先 登錄
阿里展廳同款無人超市技術解析:RFID與AI視覺如何顛覆零售?

吉方工控攜手英特爾推動零售行業高質量發展
微軟邀您相約2025全零售AI火花大會
MWC 2025 | 移遠通信推出AI智能無人零售解決方案,以“動態視覺+邊緣計算”引領智能零售新潮流

MWC 2025 | 移遠通信推出AI智能無人零售解決方案,以“動態視覺+邊緣計算”引領智能零售新潮流

京東零售數據資產能力升級與實踐

杰和科技GAM-AI視覺識別管理系統,讓AI走進零售營銷

評論