文章來源:半導(dǎo)體全解
原文作者:圓圓De圓
高性能計(jì)算(High Performance Computing, HPC)以超高的計(jì)算性能廣泛應(yīng)用于國民經(jīng)濟(jì)的各個(gè)領(lǐng)域,不僅用于氣候模擬、石油勘探等傳統(tǒng)產(chǎn)業(yè),在生命科學(xué)、大數(shù)據(jù)等領(lǐng)域成為研究和解決挑戰(zhàn)性問題的重要工具。高性能計(jì)算需要配備超強(qiáng)儲(chǔ)存能力,本文對先進(jìn)的存儲(chǔ)技術(shù)做了簡單介紹。
高性能計(jì)算主要致力于開發(fā)超級(jí)計(jì)算機(jī)和運(yùn)行在高性能計(jì)算機(jī)上的應(yīng)用軟件,提升并行計(jì)算效率,用于處理復(fù)雜的科學(xué)計(jì)算問題。
隨著軍民科技等不同領(lǐng)域?qū)?shù)據(jù)處理需求的不斷提高,多個(gè)國家研究者相繼提出運(yùn)算速度達(dá)到每秒百億億次浮點(diǎn)運(yùn)算的計(jì)算目標(biāo),Summit、神威太湖之光、天河二號(hào)等超級(jí)計(jì)算機(jī)應(yīng)運(yùn)而生。
存儲(chǔ)系統(tǒng)是計(jì)算機(jī)體系結(jié)構(gòu)中重要的組成部分,處理器核中計(jì)算所需要的數(shù)據(jù)以及處理后的數(shù)據(jù)都需要存儲(chǔ)到存儲(chǔ)系統(tǒng)中。
處理器核與存儲(chǔ)系統(tǒng)之間需要傳輸各種數(shù)據(jù)信息和指令信息,所以存儲(chǔ)訪問通信極大程度影響著整個(gè)計(jì)算系統(tǒng)的性能。
在未來高性能計(jì)算系統(tǒng)中,處理器核的數(shù)量,處理器核的計(jì)算速度,存儲(chǔ)系統(tǒng)的容量,以及存儲(chǔ)系統(tǒng)的帶寬等方面都在不斷增長,新型存儲(chǔ)的出現(xiàn)相對于傳統(tǒng)存儲(chǔ)有優(yōu)勢,也有挑戰(zhàn)。
對各類存儲(chǔ)系統(tǒng)組織形式、內(nèi)部結(jié)構(gòu)的研究有利于我們設(shè)計(jì)更匹配的存儲(chǔ)訪問互聯(lián)網(wǎng)絡(luò),有效提高訪存帶寬優(yōu)勢,降低訪問時(shí)延,降低整體功耗等。
目前,國內(nèi)外高性能微處理器的學(xué)術(shù)研究和工業(yè)實(shí)踐都在不斷改進(jìn)創(chuàng)新,存儲(chǔ)系統(tǒng)的組織結(jié)構(gòu)、存儲(chǔ)介質(zhì)、存儲(chǔ)方式等方面也在不斷發(fā)展突破。
一、傳統(tǒng)存儲(chǔ)系統(tǒng)
傳統(tǒng)存儲(chǔ)系統(tǒng)主要以DRAM構(gòu)成,DRAM cell是存儲(chǔ)系統(tǒng)中最基本的存儲(chǔ)單元。
存儲(chǔ)單元在存儲(chǔ)系統(tǒng)內(nèi)部按照行(row)和列(column)的形式進(jìn)行排布形成一個(gè)bank。 一個(gè)存儲(chǔ)模塊(memory module)內(nèi)部可以包含多個(gè) bank。
Rank 是存儲(chǔ)系統(tǒng)中對于一個(gè)或多個(gè)存儲(chǔ)模塊所組成集合的統(tǒng)稱。
Rank 中存儲(chǔ)模塊的數(shù)量由單個(gè)存儲(chǔ)模塊位寬以及存儲(chǔ)系統(tǒng)的數(shù)據(jù)位寬決定,例如一個(gè)存儲(chǔ)系統(tǒng)的數(shù)據(jù)位寬為64位,每一個(gè)存儲(chǔ)模塊的數(shù)據(jù)位寬為16位,則在一個(gè)rank 中需要使用4個(gè)存儲(chǔ)模塊進(jìn)行并行訪問,實(shí)現(xiàn)存儲(chǔ)系統(tǒng)中數(shù)據(jù)讀寫需求。
在搭建存儲(chǔ)系統(tǒng)中,除了需要考慮存儲(chǔ)模塊的位寬以外,還需要考慮存儲(chǔ)模塊的存儲(chǔ)容量以及系統(tǒng)總?cè)萘恐g的匹配關(guān)系。
在對存儲(chǔ)系統(tǒng)進(jìn)行一次訪問時(shí),存儲(chǔ)訪問控制器會(huì)根據(jù)存儲(chǔ)訪問地址首先會(huì)決定訪問哪一個(gè) rank,其次決定訪問的bank、row 和 column。
二、新型存儲(chǔ)系統(tǒng)
目前出現(xiàn)的新型存儲(chǔ)可以分為兩類: 一類是在傳統(tǒng) DRAM 基礎(chǔ)上,利用三維集成技術(shù)堆疊而成的三維存儲(chǔ),諸如 HMC、HBM 等,本質(zhì)上還是 DRAM 陣列堆疊, 屬于易失性存儲(chǔ)介質(zhì);
HMC 由 DRAM 層(DRAM layer,4 層或 8 層)和邏輯層(logic layer,1 層)構(gòu)成。
傳統(tǒng) DRAM 中基本概念包括 rank,bank,column,row,HMC 將 DRAM 進(jìn) 行三維堆疊后,用 vault 代替了 rank,每個(gè) vault 在功能上和操作上都是獨(dú)立的。
每個(gè) vault 在邏輯層都設(shè)置了一個(gè)對應(yīng)的存儲(chǔ)控制器(即 vault controller),用于管理 vault 內(nèi)的所有存儲(chǔ)操作(memory reference operations),決定該 vault 的時(shí)序要求。
刷新操作也由vault controller 控制,而不再是主存儲(chǔ)控制器中進(jìn)行控制。每個(gè) vault 控制器有一個(gè)緩沖查詢操作的隊(duì)列,查詢操作的處理不再是按序而是按需求進(jìn)行。因此,響應(yīng)信息從vault 操作返回外部串行 I/O 接口有可能是亂序的。而請求信息從同一條外部串行鏈路到同一個(gè) vault/bank 是按序處理,請求信息從不同的外部串行鏈路到同一個(gè) vault/bank 不能保證是按序處理,所以都需要經(jīng)過主控制器進(jìn)行管理。
三、HBM (High Bandwidth Memory)
HBM 是另一種典型的三維堆疊 DRAM 存儲(chǔ),AMD, Nvidia 以及 Hynix 等公司針對 HBM 都進(jìn)行了相關(guān)技術(shù)研究。
一般由 4 到 8 個(gè) DRAM die 堆疊而成。每個(gè)存儲(chǔ)控制器都是獨(dú)立定時(shí)和控制。HBM 是成本和帶寬方面的“中間”選項(xiàng),專為高性能 GPU 環(huán)境設(shè)計(jì),較 HMC 成本低,因此具有較高的研究價(jià)值。
四、相變存儲(chǔ)器 (PCM)
另一類是非易失性存儲(chǔ) NVM,諸如 PCM、RRAM 等,存儲(chǔ)基本單元結(jié)構(gòu)發(fā)生改變,存儲(chǔ)狀態(tài)以及存取方式也相應(yīng)改變,不同 NVM 之間的差異性也較大。
相變存儲(chǔ)器(Phase Change Memory,PCM)其存儲(chǔ)原理為利用硫化物材料在“非結(jié)晶態(tài)和結(jié)晶態(tài)兩種狀態(tài)間阻值的變化進(jìn)行數(shù)據(jù)存儲(chǔ),其讀取速度與 DRAM 相近, 常用于代替或與 DRAM 混合構(gòu)成計(jì)算機(jī)存儲(chǔ),目前,工業(yè)界的公司如 Intel、美光、 IBM、惠普、Numonyx、三星、STMicroelectronics 等都相繼投入研究并生產(chǎn)。
五、電阻式存儲(chǔ)器 (RRAM)
電阻式存儲(chǔ)器(Resistive Random Access Memory, RRAM)的存儲(chǔ)原理為通過對中間的金屬氧化物加壓的方式改變阻值進(jìn)行數(shù)據(jù)存儲(chǔ),屬于另外一類非易失性存儲(chǔ)。 實(shí)現(xiàn)不同的存儲(chǔ)性能,可以應(yīng)用在計(jì)算機(jī)系統(tǒng)的各級(jí)存儲(chǔ)中,目前 Rambus、Panasonic、 Adesto Technologies、SHAPP、IMEC,Unity 等公司陸續(xù)投入到 RRAM 的研究與開發(fā)中。
六、新型混合存儲(chǔ)的研究
隨著高性能計(jì)算系統(tǒng)對運(yùn)算能力需求的不斷提升,計(jì)算系統(tǒng)面臨處理器核到存儲(chǔ)系統(tǒng)(各級(jí)緩存和主存)的訪問帶寬、時(shí)延、能耗、存儲(chǔ)系統(tǒng)的處理時(shí)間、系統(tǒng)并行計(jì)算的可擴(kuò)展性等巨大的技術(shù)瓶頸。
針對高性能計(jì)算類應(yīng)用計(jì)算數(shù)據(jù)量大、計(jì)算復(fù)雜性高、訪存壓力大及訪存功耗高等問題,出現(xiàn)了一種面向新型三維存儲(chǔ)的互連網(wǎng)絡(luò)架構(gòu),利用2.5D集成技術(shù),將高帶寬存儲(chǔ)HBM集成在基底層上,且在同一基底層上集成計(jì)算層,在存儲(chǔ)層與計(jì)算層通過光互連網(wǎng)絡(luò)層進(jìn)行互連,如圖所示。
計(jì)算層中包括各個(gè)計(jì)算節(jié)點(diǎn)與緩存節(jié)點(diǎn),高帶寬存儲(chǔ)HBM作為主存,與計(jì)算層共同集成在基底層上。
通過合理配置光互連結(jié)構(gòu)布局,分配合適數(shù)量的光波長資源,提供計(jì)算節(jié)點(diǎn)與存儲(chǔ)模塊間高效的通信可行性。同時(shí),電控制單元負(fù)責(zé)控制光互連網(wǎng)絡(luò)的資源配置及光電器件的狀態(tài)。
七、先進(jìn)存儲(chǔ)技術(shù)解決辦法
國內(nèi)外研究人員針對存儲(chǔ)訪問瓶頸采取的解決思路可分為三種: 第一種是采用新型緩存機(jī)制,充分利用片上緩存資源,通過更高效的緩存數(shù)據(jù)管理機(jī)制解決訪存瓶頸,例如非一致性緩存訪問(Non-Uniform Cache Access, NUCA),反應(yīng)性非均勻緩存訪問(Reactive Non-Uniform Cache Access, R-NUCA)等結(jié)構(gòu)。
第二種是采用近存儲(chǔ)計(jì)算(Processing in Memory, PIM),將片上處理器核的部分計(jì)算功能轉(zhuǎn)移到存儲(chǔ)系統(tǒng)端,通過減少遠(yuǎn)距離訪存讀寫數(shù)據(jù)量解決訪存瓶頸。
第三種是設(shè)計(jì)高性能存儲(chǔ)訪問互連架構(gòu),通過訪存高效互連架構(gòu)的構(gòu)建,提升處理器核訪問存儲(chǔ)系統(tǒng)的并行性,降低訪問時(shí)延、功耗、能耗等。
根據(jù)不同應(yīng)用需求,不同系統(tǒng)架構(gòu)需求,三種思路的解決方式各有不同的特點(diǎn)與優(yōu)勢。
采用新型的緩存機(jī)制與近存儲(chǔ)計(jì)算所受到的應(yīng)用類型限制較大,設(shè)計(jì)處理器核與存儲(chǔ)系統(tǒng)之間高性能互連架構(gòu),更具有普遍性優(yōu)勢。
隨著硅光技術(shù)、三維集成技術(shù)、光通信技術(shù)的不斷發(fā)展,更有利于處理器核與存儲(chǔ)系統(tǒng)間訪存互連架構(gòu)的設(shè)計(jì),突破高性能計(jì)算中的訪存瓶頸。
-
處理器
+關(guān)注
關(guān)注
68文章
19494瀏覽量
231589 -
存儲(chǔ)技術(shù)
+關(guān)注
關(guān)注
5文章
747瀏覽量
45939 -
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7569瀏覽量
88912 -
存儲(chǔ)芯片
+關(guān)注
關(guān)注
11文章
907瀏覽量
43376
原文標(biāo)題:一文了解存儲(chǔ)芯片原理與先進(jìn)存儲(chǔ)技術(shù)
文章出處:【微信號(hào):bdtdsj,微信公眾號(hào):中科院半導(dǎo)體所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
一文搞懂各種RAM、ROM存儲(chǔ)的異同點(diǎn)

【搞懂存儲(chǔ)】什么是SRAM?#存儲(chǔ)技術(shù)

【搞懂存儲(chǔ)】什么是nvSRAM?#存儲(chǔ)技術(shù)

【搞懂存儲(chǔ)】什么是MRAM?#存儲(chǔ)技術(shù)

【搞懂存儲(chǔ)】什么是BBSRAM?#存儲(chǔ)技術(shù)
一文搞懂UPS主要內(nèi)容
一文搞懂開關(guān)電源波紋的產(chǎn)生
一文搞懂Rockchip內(nèi)核存儲(chǔ)庫
一文徹底搞懂C語言指針
一文解析什么是固態(tài)存儲(chǔ)技術(shù)
一文解析阻變存儲(chǔ)技術(shù)
一文搞懂配線架相關(guān)知識(shí)

一文介紹存儲(chǔ)基礎(chǔ)技術(shù)

一文搞懂DDR內(nèi)存原理

評論