网络小说排行榜,大主宰天蚕土豆小说,盛世嫡妃凤轻小说

美團是一家集生活服務及商品零售的電商平臺，公司聚焦“零售+科技”戰略，以“吃”為核心，通過科技創新，服務于生活服務業需求側和供給側數字化升級。美團在中國業務涵蓋餐飲、配送、網約車、共享單車、酒店及旅游預訂、電影票務等 200 多個服務品類，覆蓋全國 2800 個市區縣，服務 6.7 億活躍用戶和 830萬活躍商家。

伴隨著用戶規模的提升和業務的精細化運營，業務側對推薦系統的準確度、吞吐能力和時延都提出了新的挑戰，而 CTR 模型作為推薦系統的核心模型，其效果直接影響業務的收入。

美團的 CTR 模型過去一直在使用 CPU 推理的方式，但隨著用戶訪問量的提升和深度神經網絡的引入，CTR 模型結構趨于復雜，吞吐和計算量也越來越大，CPU 開始不能滿足模型對于算力的需求，而僅僅通過 CPU 服務器的堆疊帶來的性能提升性價比相較偏低。

而 GPU 擁有數以千計的計算核心，可以在單機內提供密集的并行計算能力，特別適合深度學習場景，在行業內已經在 CV 、NLP 等領域展示了強大的能力。通過 CUDA 及相關 API ，NVIDIA 建立了完整的 GPU 生態系統。基于此，美團基礎研發平臺將 CTR 模型部署到 GPU 上，并通過一系列針對 CPU 與 GPU 的異構系統并行計算設計、數據存儲方式和傳輸方式上的特定優化，希望能通過 GPU 強大的計算力，協助美團在 CTR 預測的各業務場景中發揮出最大優勢。

為了解決算力瓶頸及上述各種挑戰，美團機器學習平臺采用 NVIDIA AI 計算平臺，在繼 CV 、NLP 及 CTR 訓練后，也使用了 NVIDIA T4 來提供 CTR 預測支持，大幅提升用戶體驗與服務穩定性。除此之外，時延也是業務側非常重視的性能指標，許多復雜模型縱有更好的準確度，但卻因響應時間不達標而無法落地應用，例如，在某搜索框自動補全的場景，由于天然的交互屬性，時延要求非常苛刻，一般來說無法使用復雜的模型。而在 GPU 能力的加持下，其復雜模型的平均響應時間從 15 毫秒降低至 6~7 毫秒，足足縮短了一倍多，達到了上線要求。

通過 NVIDIA T4 深度優化方案，成功為美團 CTR 模型創造更多應用機會，不僅極大地提升了系統吞吐量，更進一步地提升了整個模型訓練的速度與降低訓練成本，落實 AI 框架在 GPU 上性能推理的優化實踐。

美團研發工程師，機器學習平臺預測引擎負責人王新表示，“在美團和英偉達的共同努力下， CTR 預測服務成功的遷移到 GPU 平臺上，在為業務提供更好的支撐的同時也獲得了更好的性價比；下一步，機器學習平臺計劃采用 NVIDIA Triton 推理服務框架和 NVIDIA Ampere A30 ，進一步提升美團推理服務的效率。”

原文標題：美團機器學習平臺使用 NVIDIA GPU 助力公司 CTR 預測服務升級

文章出處：【微信公眾號：NVIDIA英偉達企業解決方案】歡迎添加關注！文章轉載請注明出處。

審核編輯：彭菁

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

cpu

cpu

+關注

關注
68

文章
11011

瀏覽量
215255
NVIDIA

NVIDIA

+關注

關注
14

文章
5188

瀏覽量
105453
AI

AI

+關注

關注
87

文章
33556

瀏覽量
274280
美團

美團

+關注

關注
0

文章
125

瀏覽量
10535

原文標題：美團機器學習平臺使用 NVIDIA GPU 助力公司 CTR 預測服務升級

文章出處：【微信號：NVIDIA-Enterprise，微信公眾號：NVIDIA英偉達企業解決方案】歡迎添加關注！文章轉載請注明出處。

RK3588核心板在邊緣AI計算中的顛覆性優勢與場景落地

推理任務，需額外部署GPU加速卡，導致成本與功耗飆升。擴展性受限：老舊接口（如USB 2.0、百兆網口）無法支持5G模組、高速存儲等現代外設，升級困難。開發周期長：BSP適配不完善，跨平臺AI

發表于 04-15 10:48

英偉達GTC25亮點：NVIDIA Dynamo開源庫加速并擴展AI推理模型

NVIDIA Dynamo 提高了推理性能，同時降低了擴展測試時計算 (Scaling Test-Time Compute) 的成本；在 NVIDIA Blackwell 上的推理優化

發表于 03-20 15:03 ?507次閱讀

摩爾線程GPU原生FP8計算助力AI訓練

近日，摩爾線程正式開源MT-MegatronLM與MT-TransformerEngine兩大AI框架。通過深度融合FP8混合訓練策略和高性能算子庫，這兩大框架在國產全功能

發表于 03-17 17:05 ?382次閱讀

摩爾線程<b class='flag-5'>GPU</b>原生FP8計算助力<b class='flag-5'>AI</b>訓練

無法在GPU上運行ONNX模型的Benchmark_app怎么解決？

在 CPU 和 GPU 上運行OpenVINO? 2023.0 Benchmark_app推斷的 ONNX 模型。在 CPU 上推理成功，但在

發表于 03-06 08:02

無法調用GPU插件推理的遠程張量API怎么解決?

運行了使用 GPU 插件的遠程張量 API 的推理。但是，它未能共享 OpenCL* 內存，但結果不正確。

發表于 03-06 06:13

AI推理帶火的ASIC，開發成敗在此一舉！

的應用性價比遠超GPU，加上博通財報AI業務同比大增220%，掀起了AI推理端的ASIC熱潮。 ? 那么ASIC跟傳統的GPU有哪些區別，開

發表于 03-03 00:13 ?2643次閱讀

使用NVIDIA推理平臺提高AI推理性能

NVIDIA推理平臺提高了 AI 推理性能，為零售、電信等行業節省了數百萬美元。

發表于 02-08 09:59 ?533次閱讀

SSM框架的性能優化技巧 SSM框架中RESTful API的實現

SSM框架的性能優化技巧 SSM（Spring + Spring MVC + MyBatis）框架的性能

發表于 12-17 09:10 ?602次閱讀

Arm KleidiAI助力提升PyTorch上LLM推理性能

熱門的深度學習框架尤為突出，許多企業均會選擇其作為開發 AI 應用的庫。通過部署 Arm Kleidi 技術，Arm 正在努力優化 PyTorch，以加速在基于 Arm 架構的處理器上

發表于 12-03 17:05 ?1280次閱讀

《算力芯片高性能 CPUGPUNPU 微架構分析》第3篇閱讀心得：GPU革命：從圖形引擎到AI加速器的蛻變

對卷積核優化的思考。 GPU的存儲體系采用了獨特的倒金字塔結構，在我看來這是其計算性能的關鍵。大容量寄存器設計破解了傳統馮諾依曼架構的內存瓶頸，合并訪存機制巧妙解決了內存帶寬限制。NVIDIA

發表于 11-24 17:12

NPU與GPU的性能對比

它們在不同應用場景下的表現。一、設計初衷與優化方向 NPU ：專為加速AI任務而設計，包括深度學習和推理。針對神經網絡的計算模式進行了優化，能夠高效地執行矩陣乘法、卷積等操作。

發表于 11-14 15:19 ?3499次閱讀

FPGA和ASIC在大模型推理加速中的應用

隨著現在AI的快速發展，使用FPGA和ASIC進行推理加速的研究也越來越多，從目前的市場來說，有些公司已經有了專門做推理的ASIC，像Groq的LPU，專門針對大語言模型的推理做了

發表于 10-29 14:12 ?1595次閱讀

TI TDA2x SoC上基于GPU的環視優化

電子發燒友網站提供《TI TDA2x SoC上基于GPU的環視優化.pdf》資料免費下載

發表于 10-10 09:14 ?0次下載

揭秘動態化跨端框架在鴻蒙系統下的高性能解決方案

平臺解決方案。在研發團隊使用后可大幅降低研發人力成本；為業務提供實時觸達、A/B觸達等能力以提升業務投放效率；同時保障了C端用戶優秀的用戶體驗。一、動態化跨端框架原理介紹 ? ? ? ? ? 通過上圖，我們先了解一下動態化跨端框架在iOS、Android等多個平臺實現

發表于 10-08 13:46 ?1252次閱讀

進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片

。 **英偉達Blackwell架構在數據中心方面的應用有哪些？** 1. **AI **大模型訓練 Blackwell 架構的 GPU 針對當前火爆的 AI 大模型進行了優化，能夠

發表于 05-13 17:16