案例簡介
? 本案例中通過使用 NVIDIA GPU 加速平臺(tái),騰訊平臺(tái)與內(nèi)容事業(yè)群(PCG)深度學(xué)習(xí)平臺(tái)實(shí)現(xiàn)了”無量推薦系統(tǒng)”模型訓(xùn)練到在線推理的全流程GPU加速,整體效能性價(jià)比提升1~3倍。
? 本案例主要應(yīng)用到 NVIDIA A100 Tensor Core GPU以及相關(guān)軟件的加速平臺(tái)。
客戶簡介及應(yīng)用背景
無量推薦系統(tǒng)承載著騰訊平臺(tái)與內(nèi)容事業(yè)群的推薦場(chǎng)景, 包括: 騰訊看點(diǎn)(瀏覽器,QQ看點(diǎn),商業(yè)化),騰訊新聞,騰訊視頻, 騰訊音樂,閱文,應(yīng)用寶,小鵝拼拼等。無量推薦系統(tǒng)支持日活躍用戶達(dá)數(shù)億級(jí)別, 其中的模型數(shù)量達(dá)數(shù)千個(gè),日均調(diào)用服務(wù)達(dá)到千億級(jí)別。
無量推薦系統(tǒng)在模型訓(xùn)練和推理都能夠進(jìn)行海量Embedding和DNN模型的GPU計(jì)算, 是目前業(yè)界領(lǐng)先的體系結(jié)構(gòu)設(shè)計(jì)。
客戶挑戰(zhàn)
傳統(tǒng)推薦系統(tǒng)具有以下特點(diǎn): 訓(xùn)練是基于參數(shù)服務(wù)器的框架,解決海量數(shù)據(jù)和稀疏特征的分布式訓(xùn)練問題。推理通常分離大規(guī)模Embedding和DNN,只能進(jìn)行DNN的GPU加速。
所以,傳統(tǒng)的推薦系統(tǒng)架構(gòu)也具有局限性:
大規(guī)模分布式架構(gòu)有大量的額外開銷,比如參數(shù)和梯度的網(wǎng)絡(luò)收發(fā)。
隨著DNN模型復(fù)雜性的的進(jìn)一步提升,CPU的計(jì)算速度開始捉襟見肘。
隨著業(yè)務(wù)的快速增長,日活用戶增多,對(duì)其調(diào)用數(shù)量快速增加,給推薦系統(tǒng)后臺(tái)帶來了新的挑戰(zhàn):
1, 模型更加復(fù)雜,計(jì)算量更大,但是參數(shù)服務(wù)器的分布式架構(gòu)有效計(jì)算比很低。
2, 海量Embedding因?yàn)橐?guī)模龐大,查詢和聚合計(jì)算難以有效利用GPU高性能顯存和算力的優(yōu)勢(shì)。
應(yīng)用方案
基于以上的挑戰(zhàn), 騰訊選擇使用基于NVIDIA A100 Tensor Core GPU的分布式系統(tǒng)架構(gòu)來創(chuàng)建無量推薦系統(tǒng)。
1, 通過多級(jí)存儲(chǔ)和Pipeline優(yōu)化,在HPC上完成大規(guī)模推薦模型的GPU的高性能訓(xùn)練。
2, 基于特征訪問Power-law分布的特性,GPU緩存高頻特征參數(shù),同時(shí)從CPU中動(dòng)態(tài)獲取低頻特征參數(shù),實(shí)現(xiàn)了大規(guī)模推薦模型完整的GPU端到端模型推理。
使用效果及影響
騰訊平臺(tái)與內(nèi)容事業(yè)群有多種類型的推薦業(yè)務(wù)場(chǎng)景。比如信息流推薦的QQ瀏覽器、QQ看點(diǎn),新聞推薦的騰訊新聞,視頻推薦的騰訊視頻、微視,App推薦的應(yīng)用寶,以及騰訊音樂的音樂推薦和閱文集團(tuán)的文學(xué)推薦。
無量推薦系統(tǒng)承載了這些推薦業(yè)務(wù)場(chǎng)景的模型訓(xùn)練和推理服務(wù)。基于傳統(tǒng)的推薦系統(tǒng)架構(gòu),無量使用大量CPU資源,通過分布式架構(gòu)可以擴(kuò)展到TB級(jí)模型的訓(xùn)練和部署,取得了巨大的成功。
隨著業(yè)務(wù)的快速增長,日活用戶增多,對(duì)其調(diào)用數(shù)量快速增加,傳統(tǒng)架構(gòu)局限性限制了推薦系統(tǒng)的架構(gòu)擴(kuò)展和性能提升。
通過使用GPU訓(xùn)練和推理,單機(jī)多卡的GPU算力可以達(dá)到數(shù)十臺(tái)CPU機(jī)器的算力,節(jié)省了大量的額外分布式開銷。通過充分利用A100 GPU高性能顯存快速訪問Embedding,以及并行算力處理DNN推理,單張A100 GPU可以在相同的延遲下推理10倍于CPU的打分樣本。
目前基于GPU的推薦架構(gòu)可以提升模型訓(xùn)練和推理性價(jià)比1~3倍。
展望未來,無量推薦系統(tǒng)將不斷優(yōu)化推薦模型在GPU上的應(yīng)用,利用HPC多機(jī)多卡,混合精度等能力,進(jìn)一步提高推薦場(chǎng)景使用GPU的性價(jià)比。
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5267瀏覽量
105903 -
gpu
+關(guān)注
關(guān)注
28文章
4920瀏覽量
130778
發(fā)布評(píng)論請(qǐng)先 登錄
NVIDIA技術(shù)助力歐洲廠商推出機(jī)器人系統(tǒng)與平臺(tái)
借助NVIDIA技術(shù)加速半導(dǎo)體芯片制造
使用NVIDIA RTX PRO Blackwell系列GPU加速AI開發(fā)
NVIDIA助力解決量子計(jì)算領(lǐng)域重大挑戰(zhàn)
NVIDIA加速的Apache Spark助力企業(yè)節(jié)省大量成本

Oracle 與 NVIDIA 合作助力企業(yè)加速代理式 AI 推理

NVIDIA GPU助力科研人員探索外星世界
利用NVIDIA DPF引領(lǐng)DPU加速云計(jì)算的未來

NVIDIA助力FinCatch開發(fā)智能投資輔助系統(tǒng)
NVIDIA和GeForce RTX GPU專為AI時(shí)代打造
借助NVIDIA GPU提升魯班系統(tǒng)CAE軟件計(jì)算效率
《CST Studio Suite 2024 GPU加速計(jì)算指南》
AMD與NVIDIA GPU優(yōu)缺點(diǎn)
GPU加速計(jì)算平臺(tái)是什么

評(píng)論