繞開(kāi)CPU和內(nèi)存,你瀏覽的內(nèi)容或來(lái)自SSD的推薦
相信不少人都還記得今年AI芯片公司Esperanto發(fā)布的千核RISC-V處理器ET-SoC-1,隨著這款7nm的芯片于第二季度成功流片返回后,Esperanto得以在芯片上運(yùn)行代碼,以及嘗試新的應(yīng)用方向,其中之一就是AI-SSD。在近期舉辦的三星Foundry活動(dòng)上,Esperanto公開(kāi)了自己AI-SSD的概念模型。
個(gè)性化推薦系統(tǒng)的挑戰(zhàn)
在我們刷短視頻、聽(tīng)歌和瀏覽社交網(wǎng)絡(luò)時(shí),一部分內(nèi)容來(lái)自于我們已經(jīng)關(guān)注的用戶(hù),但絕大多數(shù)來(lái)自于推薦系統(tǒng)的推送。推薦系統(tǒng)的準(zhǔn)確程度很大程度決定了軟件的用戶(hù)體驗(yàn),也是如今互聯(lián)網(wǎng)經(jīng)濟(jì)系統(tǒng)的命脈。但這類(lèi)推薦也往往是服務(wù)器上消耗最大的AI處理負(fù)載,優(yōu)化推薦系統(tǒng)可以提高推薦系統(tǒng)的速度,減少在服務(wù)器上的成本。
![](https://file.elecfans.com/web2/M00/20/63/poYBAGGdlRWAO2mNADFhVU57opo211.gif)
DLRM深度學(xué)習(xí)推薦模型 / Meta
談到推薦系統(tǒng)就不得不談到嵌入,嵌入是當(dāng)下推薦系統(tǒng)中關(guān)鍵的組成部分。盡管每家都有著不同的推薦模型,但或多或少都是采用查找嵌入表的方法來(lái)實(shí)現(xiàn)分類(lèi)特征的處理。在這個(gè)過(guò)程中,嵌入表存儲(chǔ)在DRAM中,而CPU對(duì)嵌入表進(jìn)行操作,這就對(duì)內(nèi)存帶寬和內(nèi)存容量提出了雙重挑戰(zhàn)。
在內(nèi)存帶寬上,像美團(tuán)和騰訊等廠商紛紛采用多GPU加速的方式,充分利用GPU的帶寬,但這種方式依然需要多個(gè)GPU或多個(gè)服務(wù)器的支持才能解決容量問(wèn)題。固然廠商也可以選擇像HBM這種大帶寬的內(nèi)存方案,但帶來(lái)的成本提升也是巨大的。
根據(jù)Meta給出的說(shuō)法,在Facebook社交網(wǎng)站的個(gè)性化推薦系統(tǒng)中,大規(guī)模的嵌入表可達(dá)到百萬(wàn)行以上,導(dǎo)致推薦模型的大小達(dá)到10GB左右,一個(gè)神經(jīng)推薦模型中所有嵌入表甚至需要TB級(jí)別以上的空間。比如Meta旗下的Instagram已經(jīng)在開(kāi)發(fā)10TB的推薦模型,而百度的廣告排名模型也達(dá)到了10TB。這種級(jí)別的容量需求對(duì)硬盤(pán)來(lái)說(shuō)或許足夠,但對(duì)于內(nèi)存來(lái)說(shuō)過(guò)于奢侈了。
因此為了解決容量問(wèn)題,不少人也提出了SSD的存儲(chǔ)解決方案,目前傳統(tǒng)的SSD雖然可以毫不費(fèi)力地存儲(chǔ)下大規(guī)模推薦系統(tǒng),但讀取延遲和帶寬都要更差一籌,從而顯著降低推理的性能。
專(zhuān)為推薦而生的SSD
Esperanto與三星合作開(kāi)發(fā)出了一種AI-SSD的概念模型,來(lái)研究將所有嵌入表處理全部移到SSD內(nèi)部會(huì)有怎么樣的影響,從而省去推薦系統(tǒng)中經(jīng)過(guò)CPU和DRAM的環(huán)節(jié)。三星展示了使用Esperanto的ET-SoC-1芯片與其PM9A3 SSD結(jié)合的成果。
在AI-SSD中,所有嵌入表都被存儲(chǔ)在SSD里,CPU負(fù)責(zé)所有的用戶(hù)數(shù)據(jù)輸入和深度神經(jīng)網(wǎng)絡(luò),而SSD內(nèi)部的ET-SoC-1負(fù)責(zé)嵌入表的查詢(xún)和交互運(yùn)算。此外由于選擇了這種存內(nèi)計(jì)算的方式,最小化了PCIe鏈路上的數(shù)據(jù)傳輸,降低了讀寫(xiě)的高延遲,最終的分類(lèi)數(shù)據(jù)直接交給CPU生成推薦結(jié)果。
![](https://file.elecfans.com/web2/M00/20/6A/pYYBAGGdlR6AOadmAAXRqjTFo1w494.png)
AI-SSD帶寬性能測(cè)試結(jié)果 / Esperanto
測(cè)試環(huán)節(jié)中,Esperanto選用了Meta的開(kāi)源推薦模型DLRM,將AI-SSD與傳統(tǒng)的CPU-SSD方式進(jìn)行對(duì)比。在不同的模型配置下,AI-SSD實(shí)現(xiàn)了10到100倍的讀取帶寬提升,而且?guī)掚S著使用核心數(shù)的上升還能繼續(xù)線(xiàn)性提升。
要知道在這次測(cè)試中,Esperanto最多只用到了四個(gè)子節(jié)點(diǎn)(Minion Shire),每個(gè)節(jié)點(diǎn)只有32個(gè)核心。而一整個(gè)ET-SoC-1有34個(gè)子節(jié)點(diǎn)1088顆核心,如果所有計(jì)算單元全部用于SSD的話(huà),提升幅度將達(dá)到數(shù)百倍以上,十分適合數(shù)據(jù)中心級(jí)別的SSD產(chǎn)品。而ET-SoC-1的擴(kuò)展性也可以讓它縮減核心數(shù),用于一些邊緣端的推薦系統(tǒng)。
拿計(jì)算換空間
不過(guò)即便用上了AI-SSD,這也是一種增加硬件成本的路線(xiàn),除了不差錢(qián)的大公司會(huì)利用這種產(chǎn)品外,一些小的互聯(lián)網(wǎng)應(yīng)用可能并不會(huì)直接選擇更換SSD的方式,如此一來(lái),也就只有繼續(xù)優(yōu)化推薦模型一途。
佐治亞理工學(xué)院和Meta的研究院為DLRM提出了一種張量訓(xùn)練壓縮的方式,名為T(mén)T-Rec。該方法通過(guò)將嵌入表分為多個(gè)小矩陣相乘的方式進(jìn)行壓縮,進(jìn)一步降低嵌入表的大小,不過(guò)這多出來(lái)的計(jì)算是肯定躲不掉的額外消耗,好在其評(píng)估結(jié)果足夠優(yōu)秀。
在Kaggle和Terabyte數(shù)據(jù)集的測(cè)試訓(xùn)練下,TT-Rec分別將數(shù)據(jù)從2.16GB和12.57GB壓縮至18.36MB和0.11GB,整體的大小壓縮均在百倍以上,甚至可以做到幾乎沒(méi)有精度損失。而多出來(lái)的運(yùn)算則反映到了訓(xùn)練時(shí)間上,分別增加了14.3%和13.9%。因此在實(shí)際使用中,必須對(duì)內(nèi)存容量、模型精度和訓(xùn)練時(shí)間做出一定的取舍。
小結(jié)
盡管從推薦系統(tǒng)配置的角度來(lái)說(shuō),仍有不少可選的解決方案,但存算一體方面的研究已經(jīng)全面鋪開(kāi)了。存儲(chǔ)市場(chǎng)正在迅速與計(jì)算市場(chǎng)發(fā)生重疊,像三星、西數(shù)和希捷等存儲(chǔ)廠商紛紛開(kāi)始了這塊的布局,傳統(tǒng)的馮諾依曼架構(gòu)也將被近數(shù)據(jù)處理替代。
相信不少人都還記得今年AI芯片公司Esperanto發(fā)布的千核RISC-V處理器ET-SoC-1,隨著這款7nm的芯片于第二季度成功流片返回后,Esperanto得以在芯片上運(yùn)行代碼,以及嘗試新的應(yīng)用方向,其中之一就是AI-SSD。在近期舉辦的三星Foundry活動(dòng)上,Esperanto公開(kāi)了自己AI-SSD的概念模型。
個(gè)性化推薦系統(tǒng)的挑戰(zhàn)
在我們刷短視頻、聽(tīng)歌和瀏覽社交網(wǎng)絡(luò)時(shí),一部分內(nèi)容來(lái)自于我們已經(jīng)關(guān)注的用戶(hù),但絕大多數(shù)來(lái)自于推薦系統(tǒng)的推送。推薦系統(tǒng)的準(zhǔn)確程度很大程度決定了軟件的用戶(hù)體驗(yàn),也是如今互聯(lián)網(wǎng)經(jīng)濟(jì)系統(tǒng)的命脈。但這類(lèi)推薦也往往是服務(wù)器上消耗最大的AI處理負(fù)載,優(yōu)化推薦系統(tǒng)可以提高推薦系統(tǒng)的速度,減少在服務(wù)器上的成本。
![](https://file.elecfans.com/web2/M00/20/63/poYBAGGdlRWAO2mNADFhVU57opo211.gif)
DLRM深度學(xué)習(xí)推薦模型 / Meta
談到推薦系統(tǒng)就不得不談到嵌入,嵌入是當(dāng)下推薦系統(tǒng)中關(guān)鍵的組成部分。盡管每家都有著不同的推薦模型,但或多或少都是采用查找嵌入表的方法來(lái)實(shí)現(xiàn)分類(lèi)特征的處理。在這個(gè)過(guò)程中,嵌入表存儲(chǔ)在DRAM中,而CPU對(duì)嵌入表進(jìn)行操作,這就對(duì)內(nèi)存帶寬和內(nèi)存容量提出了雙重挑戰(zhàn)。
在內(nèi)存帶寬上,像美團(tuán)和騰訊等廠商紛紛采用多GPU加速的方式,充分利用GPU的帶寬,但這種方式依然需要多個(gè)GPU或多個(gè)服務(wù)器的支持才能解決容量問(wèn)題。固然廠商也可以選擇像HBM這種大帶寬的內(nèi)存方案,但帶來(lái)的成本提升也是巨大的。
根據(jù)Meta給出的說(shuō)法,在Facebook社交網(wǎng)站的個(gè)性化推薦系統(tǒng)中,大規(guī)模的嵌入表可達(dá)到百萬(wàn)行以上,導(dǎo)致推薦模型的大小達(dá)到10GB左右,一個(gè)神經(jīng)推薦模型中所有嵌入表甚至需要TB級(jí)別以上的空間。比如Meta旗下的Instagram已經(jīng)在開(kāi)發(fā)10TB的推薦模型,而百度的廣告排名模型也達(dá)到了10TB。這種級(jí)別的容量需求對(duì)硬盤(pán)來(lái)說(shuō)或許足夠,但對(duì)于內(nèi)存來(lái)說(shuō)過(guò)于奢侈了。
因此為了解決容量問(wèn)題,不少人也提出了SSD的存儲(chǔ)解決方案,目前傳統(tǒng)的SSD雖然可以毫不費(fèi)力地存儲(chǔ)下大規(guī)模推薦系統(tǒng),但讀取延遲和帶寬都要更差一籌,從而顯著降低推理的性能。
專(zhuān)為推薦而生的SSD
Esperanto與三星合作開(kāi)發(fā)出了一種AI-SSD的概念模型,來(lái)研究將所有嵌入表處理全部移到SSD內(nèi)部會(huì)有怎么樣的影響,從而省去推薦系統(tǒng)中經(jīng)過(guò)CPU和DRAM的環(huán)節(jié)。三星展示了使用Esperanto的ET-SoC-1芯片與其PM9A3 SSD結(jié)合的成果。
在AI-SSD中,所有嵌入表都被存儲(chǔ)在SSD里,CPU負(fù)責(zé)所有的用戶(hù)數(shù)據(jù)輸入和深度神經(jīng)網(wǎng)絡(luò),而SSD內(nèi)部的ET-SoC-1負(fù)責(zé)嵌入表的查詢(xún)和交互運(yùn)算。此外由于選擇了這種存內(nèi)計(jì)算的方式,最小化了PCIe鏈路上的數(shù)據(jù)傳輸,降低了讀寫(xiě)的高延遲,最終的分類(lèi)數(shù)據(jù)直接交給CPU生成推薦結(jié)果。
![](https://file.elecfans.com/web2/M00/20/6A/pYYBAGGdlR6AOadmAAXRqjTFo1w494.png)
AI-SSD帶寬性能測(cè)試結(jié)果 / Esperanto
測(cè)試環(huán)節(jié)中,Esperanto選用了Meta的開(kāi)源推薦模型DLRM,將AI-SSD與傳統(tǒng)的CPU-SSD方式進(jìn)行對(duì)比。在不同的模型配置下,AI-SSD實(shí)現(xiàn)了10到100倍的讀取帶寬提升,而且?guī)掚S著使用核心數(shù)的上升還能繼續(xù)線(xiàn)性提升。
要知道在這次測(cè)試中,Esperanto最多只用到了四個(gè)子節(jié)點(diǎn)(Minion Shire),每個(gè)節(jié)點(diǎn)只有32個(gè)核心。而一整個(gè)ET-SoC-1有34個(gè)子節(jié)點(diǎn)1088顆核心,如果所有計(jì)算單元全部用于SSD的話(huà),提升幅度將達(dá)到數(shù)百倍以上,十分適合數(shù)據(jù)中心級(jí)別的SSD產(chǎn)品。而ET-SoC-1的擴(kuò)展性也可以讓它縮減核心數(shù),用于一些邊緣端的推薦系統(tǒng)。
拿計(jì)算換空間
不過(guò)即便用上了AI-SSD,這也是一種增加硬件成本的路線(xiàn),除了不差錢(qián)的大公司會(huì)利用這種產(chǎn)品外,一些小的互聯(lián)網(wǎng)應(yīng)用可能并不會(huì)直接選擇更換SSD的方式,如此一來(lái),也就只有繼續(xù)優(yōu)化推薦模型一途。
佐治亞理工學(xué)院和Meta的研究院為DLRM提出了一種張量訓(xùn)練壓縮的方式,名為T(mén)T-Rec。該方法通過(guò)將嵌入表分為多個(gè)小矩陣相乘的方式進(jìn)行壓縮,進(jìn)一步降低嵌入表的大小,不過(guò)這多出來(lái)的計(jì)算是肯定躲不掉的額外消耗,好在其評(píng)估結(jié)果足夠優(yōu)秀。
在Kaggle和Terabyte數(shù)據(jù)集的測(cè)試訓(xùn)練下,TT-Rec分別將數(shù)據(jù)從2.16GB和12.57GB壓縮至18.36MB和0.11GB,整體的大小壓縮均在百倍以上,甚至可以做到幾乎沒(méi)有精度損失。而多出來(lái)的運(yùn)算則反映到了訓(xùn)練時(shí)間上,分別增加了14.3%和13.9%。因此在實(shí)際使用中,必須對(duì)內(nèi)存容量、模型精度和訓(xùn)練時(shí)間做出一定的取舍。
小結(jié)
盡管從推薦系統(tǒng)配置的角度來(lái)說(shuō),仍有不少可選的解決方案,但存算一體方面的研究已經(jīng)全面鋪開(kāi)了。存儲(chǔ)市場(chǎng)正在迅速與計(jì)算市場(chǎng)發(fā)生重疊,像三星、西數(shù)和希捷等存儲(chǔ)廠商紛紛開(kāi)始了這塊的布局,傳統(tǒng)的馮諾依曼架構(gòu)也將被近數(shù)據(jù)處理替代。
聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。
舉報(bào)投訴
-
SSD
+關(guān)注
關(guān)注
21文章
2863瀏覽量
117490 -
AI
+關(guān)注
關(guān)注
87文章
30998瀏覽量
269329
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
北橋芯片負(fù)責(zé)與cpu的聯(lián)系并控制內(nèi)存嗎
北橋芯片,也被稱(chēng)為內(nèi)存控制器或系統(tǒng)控制器,是計(jì)算機(jī)主板上的一個(gè)重要組成部分。它負(fù)責(zé)管理CPU、內(nèi)存、以及其他系統(tǒng)組件之間的數(shù)據(jù)傳輸和通信。 1. 北橋芯片的定義和功能 北橋芯片是主板上負(fù)責(zé)高速
C2000 CPU內(nèi)存內(nèi)置自檢功能
電子發(fā)燒友網(wǎng)站提供《C2000 CPU內(nèi)存內(nèi)置自檢功能.pdf》資料免費(fèi)下載
發(fā)表于 10-10 09:27
?0次下載
![C2000 <b class='flag-5'>CPU</b><b class='flag-5'>內(nèi)存</b>內(nèi)置自檢功能](https://file.elecfans.com/web1/M00/D9/4E/pIYBAF_1ac2Ac0EEAABDkS1IP1s689.png)
內(nèi)存控制器概述和工作原理
內(nèi)存控制器是計(jì)算機(jī)系統(tǒng)內(nèi)部控制內(nèi)存并負(fù)責(zé)內(nèi)存與CPU之間數(shù)據(jù)交換的重要組成部分。它不僅是連接CPU與內(nèi)存
主板內(nèi)存故障燈亮?xí)?b class='flag-5'>cpu的問(wèn)題嗎
主板內(nèi)存故障燈亮并不一定是CPU的問(wèn)題,但CPU與內(nèi)存之間的交互確實(shí)可能影響這一故障現(xiàn)象。以下是對(duì)主板內(nèi)存故障燈亮可能原因的分析: 一、
主板自檢cpu和內(nèi)存燈一直來(lái)回閃
當(dāng)你遇到主板自檢時(shí)CPU和內(nèi)存燈一直來(lái)回閃爍的情況,這通常意味著硬件檢測(cè)過(guò)程中存在問(wèn)題。這個(gè)問(wèn)題可能涉及到多個(gè)方面,包括硬件故障、BIOS設(shè)置錯(cuò)誤、兼容性問(wèn)題等。 1. 硬件故障 1.1 CPU故障
什么是CPU緩存?它有哪些作用?
CPU緩存(Cache Memory)是計(jì)算機(jī)系統(tǒng)中一個(gè)至關(guān)重要的組成部分,它位于CPU與內(nèi)存之間,作為兩者之間的臨時(shí)存儲(chǔ)器。CPU緩存的主要作用是減少
內(nèi)存、存儲(chǔ)系統(tǒng)和CPU的區(qū)別
在計(jì)算機(jī)系統(tǒng)中,內(nèi)存、存儲(chǔ)系統(tǒng)和CPU是三個(gè)至關(guān)重要的組件,它們各自承擔(dān)著不同的職責(zé),共同協(xié)作以完成數(shù)據(jù)處理和運(yùn)算任務(wù)。以下是對(duì)這三者之間區(qū)別的詳細(xì)闡述。
![](https://file1.elecfans.com/web2/M00/ED/54/wKgZomZquJ-ARYcxAAP1P2VznMI245.jpg)
聊聊下一代企業(yè)級(jí)SSD外形EDSFF #EDSFF #SSD #硬盤(pán)抽取盒
硬盤(pán)SSD
ICY DOCK硬盤(pán)盒
發(fā)布于 :2024年06月13日 17:15:19
Mozilla啟動(dòng)安卓版火狐Firefox瀏覽器性能調(diào)查程序
來(lái)自用戶(hù)的反饋顯示,安卓版 Firefox 瀏覽器啟用遙感測(cè)量后,可能會(huì)影響網(wǎng)站加載和瀏覽器啟動(dòng)速度。以 CNN 網(wǎng)站為例,測(cè)試數(shù)據(jù)表明,啟用遙感測(cè)量后,CPU 加載頁(yè)面的時(shí)間延長(zhǎng)了
谷歌Chrome瀏覽器將提供激進(jìn)的內(nèi)存節(jié)省方案
谷歌Chrome瀏覽器自推出以來(lái)因過(guò)度消耗內(nèi)存而廣受詬病,因此,近日谷歌已上線(xiàn)“內(nèi)存使用情況”工具,供用戶(hù)查看當(dāng)前標(biāo)簽頁(yè)面所占內(nèi)存容量(MB)。如今,谷歌計(jì)劃實(shí)施更為高效的
【鴻蒙】webview內(nèi)存泄漏問(wèn)題的分析報(bào)告
1 關(guān)鍵字 webview;內(nèi)存泄漏 2 問(wèn)題描述 問(wèn)題現(xiàn)象:在 3.1release 版本和 3.2bete1 版本中,在 RK3568 上使用 etsWeb 和其他瀏覽器時(shí),webview 所占
如何通過(guò)瀏覽器訪問(wèn)Web頁(yè)面進(jìn)行固件更新的方法?
如果電腦沒(méi)有安裝 TIA PORTAL 軟件,但是 CPU 之前激活了 Web 服務(wù)器功能,可以通過(guò)電腦聯(lián)網(wǎng) CPU,然后打開(kāi)瀏覽器瀏覽到 CPU
為什么GPU比CPU更快?
大規(guī)模數(shù)據(jù)集時(shí)比CPU更快的根本原因。內(nèi)存帶寬:GPU的內(nèi)存帶寬比CPU高得多。內(nèi)存帶寬是指數(shù)據(jù)在內(nèi)存
![為什么GPU比<b class='flag-5'>CPU</b>更快?](https://file.elecfans.com/web2/M00/4E/DC/poYBAGLCjeiALm_WAAAYmfR7Qec474.png)
求助,為什么 \" ld.w \" 導(dǎo)致某些內(nèi)存內(nèi)容被修改?
; 指令執(zhí)行后,一些內(nèi)存內(nèi)容被更改。 這很難理解。 有人遇到過(guò)類(lèi)似的問(wèn)題嗎。 以下是我的情況,
1) 在執(zhí)行 " ld.w 之前 " 指令,來(lái)自
發(fā)表于 01-26 07:35
DDR5內(nèi)存沖上8400MHz!DDR3L依然大行其道
硬件世界拉斯維加斯現(xiàn)場(chǎng)報(bào)道:CES 2024大展期間,雷克沙帶來(lái)了豐富的存儲(chǔ)方案,涵蓋SSD、內(nèi)存、存儲(chǔ)卡等,包括頂級(jí)的PCIe 5.0 SSD、DDR5高頻內(nèi)存。
![DDR5<b class='flag-5'>內(nèi)存</b>沖上8400MHz!DDR3L依然大行其道](https://file1.elecfans.com/web2/M00/BC/3B/wKgZomWgpUOAL7iWAAARq7DOnBM337.jpg)
評(píng)論