Merlin HugeCTR(以下簡稱 HugeCTR)是 GPU 加速的推薦程序框架,旨在在多個 GPU 和節(jié)點之間分配訓(xùn)練并估計點擊率(Click-through rate)。
此次v3.4更新涉及的模塊主要為:
HugeCTR 分級參數(shù)服務(wù)器
相關(guān)介紹:
HugeCTR 分級參數(shù)服務(wù)器介紹
V3.4.1 版本新增內(nèi)容
調(diào)整了整個代碼庫中日志消息的日志級別。
現(xiàn)已支持對具有多個標(biāo)簽的數(shù)據(jù)集進行推理:
“Softmax” 層現(xiàn)在已支持 FP16,并且支持混合精度以進行多標(biāo)簽推理。
支持多 GPU 離線推理:
我們通過 Python 接口支持多 GPU 離線推理,它可以利用Hierarchical Parameter Server并在多個設(shè)備上實現(xiàn)并發(fā)執(zhí)行。更多信息請參考推理 API和多 GPU 離線推理筆記本。
HPS 已構(gòu)建為獨立庫:
我們重構(gòu)了代碼庫并將分層參數(shù)服務(wù)器構(gòu)建為一個獨立的庫,以后會進一步封裝。
metadata.json 簡介:
添加了有關(guān) Parquet data 中 _metadata.json 的詳細信息。
增加了用于估計每個 GPU 的詞匯量大小的文檔和工具:
我們添加了一個工具來計算每個 GPU 的不同嵌入類型的詞匯量大小,在此基礎(chǔ)上,workspace_size_per_gpu_in_mb 可以根據(jù)嵌入向量大小和優(yōu)化器類型評估更多信息請參考腳本。
訓(xùn)練中支持 HDFS :
a. 現(xiàn)在支持從 HDFS 加載和存儲模型和優(yōu)化器狀態(tài)。
b. 增加了編譯選項使 HDFS 的支持更加靈活。
c. 添加了一個筆記本來展示如何將 HugeCTR 與 HDFS 一起使用:
增加了一個演示如何分析模型文件的 Python 腳本和筆記本
錯誤修復(fù):
修復(fù)了SOK 中的鏡像策略錯誤
修復(fù)了無法在nvcr.io/nvidia/merlin/merlin-tensorflow-training:22.02中導(dǎo)入稀疏操作工具包的問題。
HugeCTR 參數(shù)服務(wù)器:修復(fù)了在未配置 RocksDB 時,可能會在初始化期間發(fā)生的訪問沖突問題。
已知問題
HugeCTR 使用 NCCL 在 rank 之間共享數(shù)據(jù),并且 NCCL 可能需要共享系統(tǒng)內(nèi)存用于 IPC 和固定(頁面鎖定)系統(tǒng)內(nèi)存資源。在容器內(nèi)使用 NCCL 時,建議您通過發(fā)出以下命令(-shm-size=1g -ulimit memlock=-1) 來增加這些資源。
另見 NCCL 的 已知問題
還有 GitHub 問題
目前即使目標(biāo) Kafka broker 無響應(yīng),KafkaProducers 啟動也會成功。為了避免與來自 Kafka 的流模型更新相關(guān)的數(shù)據(jù)丟失,您必須確保有足夠數(shù)量的 Kafka brokers 啟動、正常工作并且可以從運行 HugeCTR 的節(jié)點訪問。
文件列表中的數(shù)據(jù)文件數(shù)量應(yīng)不小于數(shù)據(jù)讀取器的數(shù)量。否則,不同的 worker 將被映射到同一個文件,從而導(dǎo)致數(shù)據(jù)加載不會按預(yù)期進行。
正則化器暫不支持聯(lián)合損失訓(xùn)練。
原文標(biāo)題:Merlin HugeCTR v3.4.1 發(fā)布說明
文章出處:【微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
審核編輯:湯梓紅
-
gpu
+關(guān)注
關(guān)注
28文章
4923瀏覽量
130829 -
節(jié)點
+關(guān)注
關(guān)注
0文章
221瀏覽量
24879 -
服務(wù)器
+關(guān)注
關(guān)注
13文章
9730瀏覽量
87471
原文標(biāo)題:Merlin HugeCTR v3.4.1 發(fā)布說明
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
CANoe產(chǎn)品體系19版本新特性及新增Option(上)

支持HPM6P00/HPM5E00系列!HPMicro Manufacturing Tool v0.6.0發(fā)布

達實智能正式發(fā)布AIoT平臺V7版本
達實AIoT智能物聯(lián)網(wǎng)管控平臺V7版本發(fā)布
芯來科技發(fā)布Nuclei Studio 2025.02版本

motorBench 2.45.0版本說明

OurBMC 24.12版本正式上線
特斯拉FSD V13.2版本正式發(fā)布
淺談Xpedition 2409版本的新功能
實時網(wǎng)絡(luò)的仿真和配置工具RTaW Pegase v4.6版本更新

NVIDIA Parabricks v4.3.1版本的新功能

SOK在手機行業(yè)的應(yīng)用案例

評論