從淘寶到天貓應用,從搜索、推薦到廣告等場景,對井噴式的數據進行超大規模訓練推理的應用,已經在我們身邊落地開花。阿里巴巴集團的開源推薦引擎 DeepRec (PAI-TF) 主要用于稀疏模型訓練和預測,可支撐千億特征、萬億樣本的超大規模稀疏訓練。
從2019 年開始,英特爾就與阿里巴巴PAI團隊緊密合作,將英特爾 AI 技術應用到 DeepRec 中。特別是英特爾處理器內置的英特爾DL Boost (英特爾深度學習加速),為 DeepRec 實現了四個層面上的優化:框架優化、算子優化、子圖優化和模型優化。
四大層面,提升DeepRec 訓練和推理能力
自英特爾 至強 可擴展處理器問世以來,通過從 AVX-256 升級到 AVX-512,英特爾將 AVX 的能力提高了一倍,極大地提升了深度學習訓練和推理能力。第三代英特爾 至強 可擴展處理器之后,英特爾推出支持 BFloat16 (BF16) 數據類型的指令集,也應用到 DeepRec 的優化中。
框架優化:DeepRec 集成了英特爾開源的跨平臺深度學習性能加速庫oneDNN (oneAPI Deep Neural Network Library),該程序庫已經針對大量主流算子實現了性能優化。與搭載 BF16 指令的第三代英特爾至強可擴展處理器同時使用,可顯著提高模型訓練和推理性能。
算子優化:搜索廣告推薦模型中存在著大量稀疏算子,調用 AVX-512 指令加以優化后,大幅提升了數據讀寫效率和性能。
子圖優化:圖優化是 AI 性能優化的主要有效手段之一。在大規模稀疏場景下,DeepRec 加入多種子圖融合功能,減少大量冗余操作,配合英特爾 AVX-512 指令加速,實現了子圖性能的明顯提升。
模型優化:基于CPU 平臺,英特爾在 DeepRec 構建了涵蓋多個主流模型的獨有推薦模型集合,涉及召回、排序、多目標等多種常見場景;并針對硬件平臺進行性能優化,相較于其他框架在 CPU 平臺上帶來跨越式性能提升。
阿里巴巴 PAI 團隊的測試結果證明:基于 Criteo 數據集,使用BF16優化后,模型WDL精度或AUC可以逼近FP32,并且BF16模型的訓練性能提升達1.4倍,效果顯著。
未來,英特爾還會從優化器算子、attention 子圖、添加多目標模型等多個角度進一步實施優化,更大程度地發揮 CPU 平臺硬件優勢、尤其是新硬件特征的效果最大化,從而為稀疏場景打造更高性能的 CPU 解決方案。
當然,英特爾為 DeepRec 的優化并不僅限于 CPU 層面。
審核編輯 :李倩
-
英特爾
+關注
關注
61文章
10017瀏覽量
172426 -
cpu
+關注
關注
68文章
10911瀏覽量
213146
原文標題:發揮CPU平臺硬件優勢,英特爾助力DeepRec優化超大規模稀疏訓練
文章出處:【微信號:英特爾中國,微信公眾號:英特爾中國】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
英特爾推出全新英特爾銳炫B系列顯卡
![<b class='flag-5'>英特爾</b>推出全新<b class='flag-5'>英特爾</b>銳炫B系列顯卡](https://file1.elecfans.com/web3/M00/01/6A/wKgZPGdTsIeAQ_UwAAALhP4DZF0423.jpg)
英特爾AI PC無所不能的實力
四大核心展區,英特爾在工博會展現AI與制造深度融合
![<b class='flag-5'>四大</b>核心展區,<b class='flag-5'>英特爾</b>在工博會展現AI與制造深度融合](https://file1.elecfans.com//web2/M00/09/1B/wKgaomb2Cr-AMEo0AAs5ssz0bAg076.png)
開箱即用,AISBench測試展示英特爾至強處理器的卓越推理性能
![開箱即用,AISBench測試展示<b class='flag-5'>英特爾</b>至強處理器的卓越<b class='flag-5'>推理</b>性能](https://file1.elecfans.com/web2/M00/05/87/wKgZombasFCAOb28AAQWiisN-UI496.png)
英特爾是如何實現玻璃基板的?
英特爾CEO:AI時代英特爾動力不減
英特爾Gaudi 3 AI芯片:5nm工藝設計,訓練推理皆強
浪潮信息與英特爾合作推出一種大模型效率工具“YuanChat”
![浪潮信息與<b class='flag-5'>英特爾</b>合作推出一種大模型效率工具“YuanChat”](https://file1.elecfans.com/web2/M00/C6/D3/wKgaomYDs-iAXotIAAFZxWMgFo8771.jpg)
借助英特爾? QAT從而顯著提升網絡和存儲應用的性能
![借助<b class='flag-5'>英特爾</b>? QAT從而顯著<b class='flag-5'>提升</b>網絡和存儲應用的性能](https://file1.elecfans.com/web2/M00/C4/D0/wKgZomX3-7iAQNzFAAAZADk2DHo419.png)
借助英特爾DLB技術優化網絡性能
![](https://file1.elecfans.com/web2/M00/C2/F4/wKgaomXf2qWAFbE-AAWGD9pThfc972.png)
![](https://file1.elecfans.com/web2/M00/C2/CA/wKgaomXe7j6ANGaHAAWN2L7mdBA367.png)
評論