在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NVIDIA GPU助力提升模型訓練和推理性價比

GLeX_murata_eet ? 來源:NVIDIA英偉達企業解決方案 ? 作者:NVIDIA英偉達企業解 ? 2021-08-23 17:09 ? 次閱讀

無量推薦系統承載著騰訊PCG(平臺與內容事業群)的推薦場景,包括: 騰訊看點(瀏覽器、QQ看點、商業化)、騰訊新聞、騰訊視頻、騰訊音樂、閱文、應用寶、小鵝拼拼等。無量推薦系統支持日活躍用戶達數億級別,其中的模型數量達數千個,日均調用服務達到千億級別。無量推薦系統,在模型訓練和推理都能夠進行海量Embedding和DNN模型的GPU計算,是目前業界領先的體系結構設計。

傳統推薦系統面臨挑戰

傳統推薦系統具有以下特點: 訓練是基于參數服務器的框架,解決海量數據和稀疏特征的分布式訓練問題。推理通常分離大規模Embedding和DNN,只能進行DNN的GPU加速。 所以,傳統的推薦系統架構具有一些局限性:1. 大規模分布式架構有大量的額外開銷,比如參數和梯度的網絡收發。2. 隨著DNN模型復雜性的的進一步提升,CPU的計算速度開始捉襟見肘。 隨著業務的快速增長,日活用戶增多,對其調用數量快速增加,給推薦系統后臺帶來了新的挑戰:1. 模型更加復雜,計算量更大,但是參數服務器的分布式架構有效計算比很低。2. 海量Embedding因為規模龐大,查詢和聚合計算難以有效利用GPU高性能顯存和算力的優勢。

GPU助力提升模型訓練和推理性價比

基于以上的挑戰,騰訊PCG(平臺與內容事業群)選擇使用基于NVIDIA A100 GPU的分布式系統架構來創建無量推薦系統。

1. 通過多級存儲和Pipeline優化,在HPC上完成大規模推薦模型的GPU的高性能訓練。2. 基于特征訪問Power-law分布的特性,GPU緩存高頻特征參數,同時從CPU中動態獲取低頻特征參數,實現了大規模推薦模型完整的GPU端到端模型推理。

騰訊PCG有多種類型的推薦業務場景。比如信息流推薦的QQ瀏覽器、QQ看點、新聞推薦的騰訊新聞、視頻推薦的騰訊視頻、微視、App推薦的應用寶、以及騰訊音樂的音樂推薦和閱文集團的文學推薦。

無量推薦系統承載了這些推薦業務場景的模型訓練和推理服務。基于傳統的推薦系統架構,無量推薦系統使用大量CPU資源,通過分布式架構可以擴展到TB級模型的訓練和部署,取得了巨大的成功。隨著業務的快速增長,日活用戶增多,對其調用數量快速增加,傳統架構局限性限制了推薦系統的架構擴展和性能提升。

通過使用GPU訓練和推理,單機多卡的GPU算力可以達到數十臺CPU機器的算力,節省了大量的額外分布式開銷。通過充分利用A100 GPU高性能顯存快速訪問Embedding,以及并行算力處理DNN推理,單張A100 GPU可以在相同的延遲下推理10倍于CPU的打分樣本。目前基于GPU的推薦架構可以提升模型訓練和推理性價比1~3倍。

未來,無量推薦系統將不斷優化推薦模型在GPU上的應用,利用HPC多機多卡,混合精度等能力,進一步提高推薦場景使用GPU的性價比。

重磅!NVIDIA行業微站一睹為快!內容涵蓋NVIDIA主要的12大行業方案,以及NVIDIA當期重點產品資料。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5178

    瀏覽量

    105293

原文標題:NVIDIA A100 GPU助力騰訊PCG加速無量推薦系統

文章出處:【微信號:murata-eetrend,微信公眾號:murata-eetrend】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型

    NVIDIA Dynamo 提高了推理性能,同時降低了擴展測試時計算 (Scaling Test-Time Compute) 的成本;在 NVIDIA Blackwell 上的推理優化
    的頭像 發表于 03-20 15:03 ?467次閱讀

    NVIDIA 推出開放推理 AI 模型系列,助力開發者和企業構建代理式 AI 平臺

    NVIDIA訓練的全新 Llama Nemotron 推理模型,為代理式 AI 提供業務就緒型基礎 埃森哲、Amdocs、Atlassian、Box、Cadence、CrowdStrike
    發表于 03-19 09:31 ?160次閱讀
    <b class='flag-5'>NVIDIA</b> 推出開放<b class='flag-5'>推理</b> AI <b class='flag-5'>模型</b>系列,<b class='flag-5'>助力</b>開發者和企業構建代理式 AI 平臺

    摩爾線程GPU原生FP8計算助力AI訓練

    并行訓練推理,顯著提升訓練效率與穩定性。摩爾線程是國內率先原生支持FP8計算精度的國產GPU企業,此次開源不僅為AI
    的頭像 發表于 03-17 17:05 ?338次閱讀
    摩爾線程<b class='flag-5'>GPU</b>原生FP8計算<b class='flag-5'>助力</b>AI<b class='flag-5'>訓練</b>

    無法在GPU上運行ONNX模型的Benchmark_app怎么解決?

    在 CPU 和 GPU 上運行OpenVINO? 2023.0 Benchmark_app推斷的 ONNX 模型。 在 CPU 上推理成功,但在 GPU 上失敗。
    發表于 03-06 08:02

    壁仞科技支持DeepSeek-V3滿血版訓練推理

    DeepSeek-V3滿血版在國產GPU平臺的高效全棧式訓練推理,實現國產大模型與國產GPU的深度融合優化,開啟國產算力新篇章。
    的頭像 發表于 03-04 14:01 ?618次閱讀

    使用NVIDIA推理平臺提高AI推理性

    NVIDIA推理平臺提高了 AI 推理性能,為零售、電信等行業節省了數百萬美元。
    的頭像 發表于 02-08 09:59 ?487次閱讀
    使用<b class='flag-5'>NVIDIA</b><b class='flag-5'>推理</b>平臺提高AI<b class='flag-5'>推理性</b>能

    GPU是如何訓練AI大模型

    在AI模型訓練過程中,大量的計算工作集中在矩陣乘法、向量加法和激活函數等運算上。這些運算正是GPU所擅長的。接下來,AI部落小編帶您了解GPU是如何
    的頭像 發表于 12-19 17:54 ?522次閱讀

    解鎖NVIDIA TensorRT-LLM的卓越性能

    Batching、Paged KV Caching、量化技術 (FP8、INT4 AWQ、INT8 SmoothQuant 等) 以及更多功能,確保您的 NVIDIA GPU 能發揮出卓越的推理性能。
    的頭像 發表于 12-17 17:47 ?534次閱讀

    PyTorch GPU 加速訓練模型方法

    在深度學習領域,GPU加速訓練模型已經成為提高訓練效率和縮短訓練時間的重要手段。PyTorch作為一個流行的深度學習框架,提供了豐富的工具和
    的頭像 發表于 11-05 17:43 ?1087次閱讀

    NVIDIA助力麗蟾科技打造AI訓練推理加速解決方案

    麗蟾科技通過 Leaper 資源管理平臺集成 NVIDIA AI Enterprise,為企業和科研機構提供了一套高效、靈活的 AI 訓練推理加速解決方案。無論是在復雜的 AI 開發任務中,還是在高并發
    的頭像 發表于 10-27 10:03 ?541次閱讀
    <b class='flag-5'>NVIDIA</b><b class='flag-5'>助力</b>麗蟾科技打造AI<b class='flag-5'>訓練</b>與<b class='flag-5'>推理</b>加速解決方案

    為什么ai模型訓練要用gpu

    GPU憑借其強大的并行處理能力和高效的內存系統,已成為AI模型訓練不可或缺的重要工具。
    的頭像 發表于 10-24 09:39 ?705次閱讀

    開箱即用,AISBench測試展示英特爾至強處理器的卓越推理性

    近期,第五代英特爾?至強?可擴展處理器通過了中國電子技術標準化研究院組織的人工智能服務器系統性能測試(AISBench)。英特爾成為首批通過AISBench大語言模型(LLM)推理性能測試的企業
    的頭像 發表于 09-06 15:33 ?591次閱讀
    開箱即用,AISBench測試展示英特爾至強處理器的卓越<b class='flag-5'>推理性</b>能

    魔搭社區借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社區是中國最具影響力的模型開源社區,致力給開發者提供模型即服務的體驗。魔搭社區利用NVIDIA TensorRT-LLM,大大提高了大語言模型
    的頭像 發表于 08-23 15:48 ?693次閱讀

    進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片

    。 **英偉達Blackwell架構在數據中心方面的應用有哪些?** 1. **AI **大模型訓練 Blackwell 架構的 GPU 針對當前火爆的 AI 大模型進行了優化,能夠
    發表于 05-13 17:16

    利用NVIDIA組件提升GPU推理的吞吐

    本實踐中,唯品會 AI 平臺與 NVIDIA 團隊合作,結合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)將推理的稠密網絡和熱
    的頭像 發表于 04-20 09:39 ?992次閱讀
    主站蜘蛛池模板: 九色窝| 伊人久久大香线蕉综合网站 | 爆操欧美| 羞涩妩媚玉腿呻吟嗯啊销魂迎合 | 校园 春色 欧美 另类 小说 | 拍真实国产伦偷精品 | 免费特黄| 亚洲乱亚洲乱妇13p 亚洲免费mv | 亚洲男人天堂2020 | 国产婷婷色 | 四虎影库在线播放 | 日本黄色a级 | 天天干天天拍天天射 | 国产精品黄网站免费进入 | 给我一个可以看片的www日本 | 色色网视频 | 日本高清视频在线www色 | 免费播放特黄特色毛片 | 天天操中文字幕 | 亚洲一区二区三区精品视频 | 久久久久久亚洲精品 | 亚洲乱码尤物193yw在线播放 | 成年美女黄网站色大免费视频 | 四虎影院在线免费观看 | 亚洲大尺度视频 | 人人看人人做人人爱精品 | 色碰人色碰人视频 | 欧美成人 一区二区三区 | www.av在线.com | 色综合天天综合网国产国产人 | 国产男靠女免费视频网站 | 亚洲视频免费一区 | 娇妻被黑人蹂躏 | 诱人的老师bd高清日本在线观看 | 欧美黄色成人 | 国产高清免费午夜在线视频 | 妖精视频一区二区三区 | 国产精品综合色区在线观看 | 天天插天天操天天射 | 一级特黄色毛片免费看 | 免费观看一区二区 |