在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

美團落實 AI 框架在 GPU 上性能推理的優化實踐

NVIDIA英偉達企業解決方案 ? 來源:NVIDIA英偉達企業解決方案 ? 作者:NVIDIA英偉達企業解 ? 2021-12-28 09:11 ? 次閱讀

美團是一家集生活服務及商品零售的電商平臺,公司聚焦“零售+科技”戰略,以“吃”為核心,通過科技創新,服務于生活服務業需求側和供給側數字化升級。美團在中國業務涵蓋餐飲、配送、網約車、共享單車、酒店及旅游預訂、電影票務等 200 多個服務品類,覆蓋全國 2800 個市區縣,服務 6.7 億活躍用戶和 830萬活躍商家。

伴隨著用戶規模的提升和業務的精細化運營,業務側對推薦系統的準確度、吞吐能力和時延都提出了新的挑戰,而 CTR 模型作為推薦系統的核心模型,其效果直接影響業務的收入。

美團的 CTR 模型過去一直在使用 CPU 推理的方式,但隨著用戶訪問量的提升和深度神經網絡的引入,CTR 模型結構趨于復雜,吞吐和計算量也越來越大,CPU 開始不能滿足模型對于算力的需求,而僅僅通過 CPU 服務器的堆疊帶來的性能提升性價比相較偏低。

GPU 擁有數以千計的計算核心,可以在單機內提供密集的并行計算能力,特別適合深度學習場景,在行業內已經在 CV 、NLP 等領域展示了強大的能力。通過 CUDA 及相關 API ,NVIDIA 建立了完整的 GPU 生態系統。基于此,美團基礎研發平臺將 CTR 模型部署到 GPU 上,并通過一系列針對 CPU 與 GPU 的異構系統并行計算設計、數據存儲方式和傳輸方式上的特定優化,希望能通過 GPU 強大的計算力,協助美團在 CTR 預測的各業務場景中發揮出最大優勢。

為了解決算力瓶頸及上述各種挑戰,美團機器學習平臺采用 NVIDIA AI 計算平臺,在繼 CV 、NLP 及 CTR 訓練后,也使用了 NVIDIA T4 來提供 CTR 預測支持,大幅提升用戶體驗與服務穩定性。除此之外,時延也是業務側非常重視的性能指標,許多復雜模型縱有更好的準確度,但卻因響應時間不達標而無法落地應用,例如,在某搜索框自動補全的場景,由于天然的交互屬性,時延要求非常苛刻,一般來說無法使用復雜的模型。而在 GPU 能力的加持下,其復雜模型的平均響應時間從 15 毫秒降低至 6~7 毫秒,足足縮短了一倍多,達到了上線要求。

通過 NVIDIA T4 深度優化方案,成功為美團 CTR 模型創造更多應用機會,不僅極大地提升了系統吞吐量,更進一步地提升了整個模型訓練的速度與降低訓練成本,落實 AI 框架在 GPU 上性能推理的優化實踐。

美團研發工程師,機器學習平臺預測引擎負責人王新表示,“在美團和英偉達的共同努力下, CTR 預測服務成功的遷移到 GPU 平臺上,在為業務提供更好的支撐的同時也獲得了更好的性價比;下一步,機器學習平臺計劃采用 NVIDIA Triton 推理服務框架和 NVIDIA Ampere A30 ,進一步提升美團推理服務的效率。”

原文標題:美團機器學習平臺使用 NVIDIA GPU 助力公司 CTR 預測服務升級

文章出處:【微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。

審核編輯:彭菁
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • cpu
    cpu
    +關注

    關注

    68

    文章

    11011

    瀏覽量

    215255
  • NVIDIA
    +關注

    關注

    14

    文章

    5188

    瀏覽量

    105453
  • AI
    AI
    +關注

    關注

    87

    文章

    33556

    瀏覽量

    274280
  • 美團
    +關注

    關注

    0

    文章

    125

    瀏覽量

    10535

原文標題:美團機器學習平臺使用 NVIDIA GPU 助力公司 CTR 預測服務升級

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    RK3588核心板在邊緣AI計算中的顛覆性優勢與場景落地

    推理任務,需額外部署GPU加速卡,導致成本與功耗飆升。 擴展性受限:老舊接口(如USB 2.0、百兆網口)無法支持5G模組、高速存儲等現代外設,升級困難。 開發周期長:BSP適配不完善,跨平臺AI
    發表于 04-15 10:48

    英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型

    NVIDIA Dynamo 提高了推理性能,同時降低了擴展測試時計算 (Scaling Test-Time Compute) 的成本;在 NVIDIA Blackwell 推理優化
    的頭像 發表于 03-20 15:03 ?507次閱讀

    摩爾線程GPU原生FP8計算助力AI訓練

    近日,摩爾線程正式開源MT-MegatronLM與MT-TransformerEngine兩大AI框架。通過深度融合FP8混合訓練策略和高性能算子庫,這兩大框架在國產全功能
    的頭像 發表于 03-17 17:05 ?382次閱讀
    摩爾線程<b class='flag-5'>GPU</b>原生FP8計算助力<b class='flag-5'>AI</b>訓練

    無法在GPU運行ONNX模型的Benchmark_app怎么解決?

    在 CPU 和 GPU 運行OpenVINO? 2023.0 Benchmark_app推斷的 ONNX 模型。 在 CPU 推理成功,但在
    發表于 03-06 08:02

    無法調用GPU插件推理的遠程張量API怎么解決?

    運行了使用 GPU 插件的遠程張量 API 的推理。但是,它未能共享 OpenCL* 內存,但結果不正確。
    發表于 03-06 06:13

    AI推理帶火的ASIC,開發成敗在此一舉!

    的應用性價比遠超GPU,加上博通財報AI業務同比大增220%,掀起了AI推理端的ASIC熱潮。 ? 那么ASIC跟傳統的GPU有哪些區別,開
    的頭像 發表于 03-03 00:13 ?2643次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>帶火的ASIC,開發成敗在此一舉!

    使用NVIDIA推理平臺提高AI推理性能

    NVIDIA推理平臺提高了 AI 推理性能,為零售、電信等行業節省了數百萬美元。
    的頭像 發表于 02-08 09:59 ?533次閱讀
    使用NVIDIA<b class='flag-5'>推理</b>平臺提高<b class='flag-5'>AI</b><b class='flag-5'>推理性能</b>

    SSM框架性能優化技巧 SSM框架中RESTful API的實現

    SSM框架性能優化技巧 SSM(Spring + Spring MVC + MyBatis)框架性能
    的頭像 發表于 12-17 09:10 ?602次閱讀

    Arm KleidiAI助力提升PyTorchLLM推理性能

    熱門的深度學習框架尤為突出,許多企業均會選擇其作為開發 AI 應用的庫。通過部署 Arm Kleidi 技術,Arm 正在努力優化 PyTorch,以加速在基于 Arm 架構的處理器
    的頭像 發表于 12-03 17:05 ?1280次閱讀
    Arm KleidiAI助力提升PyTorch<b class='flag-5'>上</b>LLM<b class='flag-5'>推理性能</b>

    《算力芯片 高性能 CPUGPUNPU 微架構分析》第3篇閱讀心得:GPU革命:從圖形引擎到AI加速器的蛻變

    對卷積核優化的思考。 GPU的存儲體系采用了獨特的倒金字塔結構,在我看來這是其計算性能的關鍵。大容量寄存器設計破解了傳統馮諾依曼架構的內存瓶頸,合并訪存機制巧妙解決了內存帶寬限制。NVIDIA
    發表于 11-24 17:12

    NPU與GPU性能對比

    它們在不同應用場景下的表現。 一、設計初衷與優化方向 NPU : 專為加速AI任務而設計,包括深度學習和推理。 針對神經網絡的計算模式進行了優化,能夠高效地執行矩陣乘法、卷積等操作。
    的頭像 發表于 11-14 15:19 ?3499次閱讀

    FPGA和ASIC在大模型推理加速中的應用

    隨著現在AI的快速發展,使用FPGA和ASIC進行推理加速的研究也越來越多,從目前的市場來說,有些公司已經有了專門做推理的ASIC,像Groq的LPU,專門針對大語言模型的推理做了
    的頭像 發表于 10-29 14:12 ?1595次閱讀
    FPGA和ASIC在大模型<b class='flag-5'>推理</b>加速中的應用

    TI TDA2x SoC基于GPU的環視優化

    電子發燒友網站提供《TI TDA2x SoC基于GPU的環視優化.pdf》資料免費下載
    發表于 10-10 09:14 ?0次下載
    TI TDA2x SoC<b class='flag-5'>上</b>基于<b class='flag-5'>GPU</b>的環視<b class='flag-5'>優化</b>

    揭秘動態化跨端框架在鴻蒙系統下的高性能解決方案

    平臺解決方案。 在研發團隊使用后可大幅降低研發人力成本;為業務提供實時觸達、A/B觸達等能力以提升業務投放效率;同時保障了C端用戶優秀的用戶體驗。 一、動態化跨端框架原理介紹 ? ? ? ? ? 通過上圖,我們先了解一下動態化跨端框架在iOS、Android等多個平臺實現
    的頭像 發表于 10-08 13:46 ?1252次閱讀
    揭秘動態化跨端<b class='flag-5'>框架在</b>鴻蒙系統下的高<b class='flag-5'>性能</b>解決方案

    進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片

    。 **英偉達Blackwell架構在數據中心方面的應用有哪些?** 1. **AI **大模型訓練 Blackwell 架構的 GPU 針對當前火爆的 AI 大模型進行了優化,能夠
    發表于 05-13 17:16
    主站蜘蛛池模板: 恐怖片大全恐怖片免费观看好看的恐怖片 | 免费福利在线播放 | 好吊日在线 | 国产网红主播精品福利大秀专区 | bt天堂网www连接 | 国产毛片农村妇女系列 | 真人一级一级特黄高清毛片 | 久久sese| 五月激情六月 | 性感美女视频黄.免费网站 性高清 | 午夜爱爱小视频 | 高清视频 一区二区三区四区 | 久热福利视频 | 日韩综合nv一区二区在线观看 | 亚洲欧美成人综合久久久 | 色婷婷一区二区三区四区成人网 | 亚洲综合激情九月婷婷 | 欧美色视频超清在线观看 | 国产精品看片 | 成人一级网站 | 91桃色国产线观看免费 | 黄色午夜影院 | 久久精品亚瑟全部免费观看 | 69xxxx日本老师| 你懂的网站在线观看 | 日日噜噜噜夜夜爽爽狠狠 | 国产福利2021最新在线观看 | 一区二区精品 | 可以直接看的黄色网址 | 51影院在线观看成人免费 | 日本高清www | 极品美女洗澡后露粉嫩木耳视频 | 色婷综合 | 国产美女亚洲精品久久久久久 | 一区二区高清在线 | 豆国产97在线 | 欧洲 | 天天干天天色综合 | 性夜影院爽黄a爽免费视频 性瘾高h姚蕊全文免费阅读 | 老师喂我吃她的奶水脱她胸罩 | 中国黄色一级毛片 | 性夜影院爽黄a爽在线看香蕉 |