無量推薦系統承載著騰訊PCG(平臺與內容事業群)的推薦場景,包括: 騰訊看點(瀏覽器、QQ看點、商業化)、騰訊新聞、騰訊視頻、騰訊音樂、閱文、應用寶、小鵝拼拼等。無量推薦系統支持日活躍用戶達數億級別,其中的模型數量達數千個,日均調用服務達到千億級別。無量推薦系統,在模型訓練和推理都能夠進行海量Embedding和DNN模型的GPU計算,是目前業界領先的體系結構設計。
傳統推薦系統面臨挑戰
傳統推薦系統具有以下特點: 訓練是基于參數服務器的框架,解決海量數據和稀疏特征的分布式訓練問題。推理通常分離大規模Embedding和DNN,只能進行DNN的GPU加速。 所以,傳統的推薦系統架構具有一些局限性:1. 大規模分布式架構有大量的額外開銷,比如參數和梯度的網絡收發。2. 隨著DNN模型復雜性的的進一步提升,CPU的計算速度開始捉襟見肘。 隨著業務的快速增長,日活用戶增多,對其調用數量快速增加,給推薦系統后臺帶來了新的挑戰:1. 模型更加復雜,計算量更大,但是參數服務器的分布式架構有效計算比很低。2. 海量Embedding因為規模龐大,查詢和聚合計算難以有效利用GPU高性能顯存和算力的優勢。
GPU助力提升模型訓練和推理性價比
基于以上的挑戰,騰訊PCG(平臺與內容事業群)選擇使用基于NVIDIA A100 GPU的分布式系統架構來創建無量推薦系統。
1. 通過多級存儲和Pipeline優化,在HPC上完成大規模推薦模型的GPU的高性能訓練。2. 基于特征訪問Power-law分布的特性,GPU緩存高頻特征參數,同時從CPU中動態獲取低頻特征參數,實現了大規模推薦模型完整的GPU端到端模型推理。
騰訊PCG有多種類型的推薦業務場景。比如信息流推薦的QQ瀏覽器、QQ看點、新聞推薦的騰訊新聞、視頻推薦的騰訊視頻、微視、App推薦的應用寶、以及騰訊音樂的音樂推薦和閱文集團的文學推薦。
無量推薦系統承載了這些推薦業務場景的模型訓練和推理服務。基于傳統的推薦系統架構,無量推薦系統使用大量CPU資源,通過分布式架構可以擴展到TB級模型的訓練和部署,取得了巨大的成功。隨著業務的快速增長,日活用戶增多,對其調用數量快速增加,傳統架構局限性限制了推薦系統的架構擴展和性能提升。
通過使用GPU訓練和推理,單機多卡的GPU算力可以達到數十臺CPU機器的算力,節省了大量的額外分布式開銷。通過充分利用A100 GPU高性能顯存快速訪問Embedding,以及并行算力處理DNN推理,單張A100 GPU可以在相同的延遲下推理10倍于CPU的打分樣本。目前基于GPU的推薦架構可以提升模型訓練和推理性價比1~3倍。
未來,無量推薦系統將不斷優化推薦模型在GPU上的應用,利用HPC多機多卡,混合精度等能力,進一步提高推薦場景使用GPU的性價比。
重磅!NVIDIA行業微站一睹為快!內容涵蓋NVIDIA主要的12大行業方案,以及NVIDIA當期重點產品資料。
責任編輯:haq
-
NVIDIA
+關注
關注
14文章
5080瀏覽量
103826
原文標題:NVIDIA A100 GPU助力騰訊PCG加速無量推薦系統
文章出處:【微信號:murata-eetrend,微信公眾號:murata-eetrend】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
GPU是如何訓練AI大模型的
解鎖NVIDIA TensorRT-LLM的卓越性能
PyTorch GPU 加速訓練模型方法
NVIDIA助力麗蟾科技打造AI訓練與推理加速解決方案
![<b class='flag-5'>NVIDIA</b><b class='flag-5'>助力</b>麗蟾科技打造AI<b class='flag-5'>訓練</b>與<b class='flag-5'>推理</b>加速解決方案](https://file1.elecfans.com/web2/M00/0A/50/wKgZomcdoBOASYB2AAANyPB4II4590.png)
開箱即用,AISBench測試展示英特爾至強處理器的卓越推理性能
![開箱即用,AISBench測試展示英特爾至強處理器的卓越<b class='flag-5'>推理性</b>能](https://file1.elecfans.com/web2/M00/05/87/wKgZombasFCAOb28AAQWiisN-UI496.png)
魔搭社區借助NVIDIA TensorRT-LLM提升LLM推理效率
llm模型訓練一般用什么系統
摩爾線程和滴普科技完成大模型訓練與推理適配
進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片
【大語言模型:原理與工程實踐】揭開大語言模型的面紗
NVIDIA加速微軟最新的Phi-3 Mini開源語言模型
利用NVIDIA組件提升GPU推理的吞吐
自然語言處理應用LLM推理優化綜述
![自然語言處理應用LLM<b class='flag-5'>推理</b>優化綜述](https://file1.elecfans.com/web2/M00/C8/A0/wKgaomYWEl2AF7LLAAAS-FUCvm4140.png)
評論