大主宰天蚕土豆,欢乐颂第一季,玄幻小说排行榜

無量推薦系統承載著騰訊PCG（平臺與內容事業群）的推薦場景，包括：騰訊看點（瀏覽器、QQ看點、商業化）、騰訊新聞、騰訊視頻、騰訊音樂、閱文、應用寶、小鵝拼拼等。無量推薦系統支持日活躍用戶達數億級別，其中的模型數量達數千個，日均調用服務達到千億級別。無量推薦系統，在模型訓練和推理都能夠進行海量Embedding和DNN模型的GPU計算，是目前業界領先的體系結構設計。

傳統推薦系統面臨挑戰

傳統推薦系統具有以下特點：訓練是基于參數服務器的框架，解決海量數據和稀疏特征的分布式訓練問題。推理通常分離大規模Embedding和DNN，只能進行DNN的GPU加速。所以，傳統的推薦系統架構具有一些局限性：1. 大規模分布式架構有大量的額外開銷，比如參數和梯度的網絡收發。2. 隨著DNN模型復雜性的的進一步提升，CPU的計算速度開始捉襟見肘。隨著業務的快速增長，日活用戶增多，對其調用數量快速增加，給推薦系統后臺帶來了新的挑戰：1. 模型更加復雜，計算量更大，但是參數服務器的分布式架構有效計算比很低。2. 海量Embedding因為規模龐大，查詢和聚合計算難以有效利用GPU高性能顯存和算力的優勢。

GPU助力提升模型訓練和推理性價比

基于以上的挑戰，騰訊PCG（平臺與內容事業群）選擇使用基于NVIDIA A100 GPU的分布式系統架構來創建無量推薦系統。

1. 通過多級存儲和Pipeline優化，在HPC上完成大規模推薦模型的GPU的高性能訓練。2. 基于特征訪問Power-law分布的特性，GPU緩存高頻特征參數，同時從CPU中動態獲取低頻特征參數，實現了大規模推薦模型完整的GPU端到端模型推理。

騰訊PCG有多種類型的推薦業務場景。比如信息流推薦的QQ瀏覽器、QQ看點、新聞推薦的騰訊新聞、視頻推薦的騰訊視頻、微視、App推薦的應用寶、以及騰訊音樂的音樂推薦和閱文集團的文學推薦。

無量推薦系統承載了這些推薦業務場景的模型訓練和推理服務。基于傳統的推薦系統架構，無量推薦系統使用大量CPU資源，通過分布式架構可以擴展到TB級模型的訓練和部署，取得了巨大的成功。隨著業務的快速增長，日活用戶增多，對其調用數量快速增加，傳統架構局限性限制了推薦系統的架構擴展和性能提升。

通過使用GPU訓練和推理，單機多卡的GPU算力可以達到數十臺CPU機器的算力，節省了大量的額外分布式開銷。通過充分利用A100 GPU高性能顯存快速訪問Embedding，以及并行算力處理DNN推理，單張A100 GPU可以在相同的延遲下推理10倍于CPU的打分樣本。目前基于GPU的推薦架構可以提升模型訓練和推理性價比1~3倍。

未來，無量推薦系統將不斷優化推薦模型在GPU上的應用，利用HPC多機多卡，混合精度等能力，進一步提高推薦場景使用GPU的性價比。

重磅！NVIDIA行業微站一睹為快！內容涵蓋NVIDIA主要的12大行業方案，以及NVIDIA當期重點產品資料。

責任編輯：haq

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴