無容置疑2020是非常特別的一年,疫情的初期由于防護和隔離的要求,在某種程度上影響了SSD的產能和銷售,然而當今高度互聯的世界很快就調整了過來,充分利用網絡來進行正常的商業生產和生活,使得寬帶,網絡會議,社交服務網站等有了急速的發展,因此也帶動了對高性能SSD的需求。
隨著超過100層的3D NAND的量產,QLC逐步被PC OEM廠商采用,NVMe標準提出了更多新的功能,SSD存儲控制也在不斷發展。為此,我們專訪了英韌科技(上海)有限公司聯合創始人、SoC設計副總裁賴的是先生。英韌科技是專注于SSD主控芯片的一家國內企業——這家公司在短時間內就聲名鵲起。除了產品之外,很大程度也是源自其最初的幾名創始人,包括吳子寧博士、賴的是等此前都有Marvell這類老牌企業的工作經驗,比如吳子寧博士此前是Marvell的全球CTO,而賴的是則是東芝美國高級研發總監。
在與賴的是的對話中,我們大致可以窺見企業級尤其是數據中心SSD市場發展的幾個重要趨勢,并且從中理解英韌科技預備為行業帶來的一些新的技術;同時也加深對于某些特定技術和應用發展方向的理解。
威剛去年展示的達到7GB/s順序讀取速度的PCIe Gen4 SSD,采用Innogrit Rainier控制器
PCIe Gen5提前到來
賴的是在與我們對話中,首先就提到了PCIe Gen5 SSD的即將到來。這就讓人感到意外,因為目前PCIe Gen4還正在普及之中,PCIe Gen5為什么就要來了?“Gen5比想象中來得要快一些。Intel打算明年正式實現Gen5的支持。整個高端存儲產業,明年年初到年中,就會有一些Gen5的產品問世。大概到2023年,Gen5的產品可能會更多。”賴的是表示。
英韌科技現有面向數據中心的Tacoma產品線,“我們準備把Tacoma升級到PCIe Gen5”。同時賴的是確認了,英韌科技明年就會有PCIe Gen5的SSD控制器產品推向市場。
“事實上,每代PCIe規格產品的迭代大概是5-8年。Gen4的迭代可能會快一些,我們可能會以更快的速度跨入Gen5產品的支持。Gen6則還需要一段時間,要求也會很高。”
Gen4的迭代為什么會更快?賴的是補充說:“AMD在2019年7月7日發布了PCIe Gen4的chipset支持。Intel在2020的下半年才有一些對應的產品問世。Intel期望能夠挽回技術領導者位置,立刻就準備去支持PCIe Gen5。”
事實上在Intel晚于AMD近一年才推出PCIe Gen4之際,市場就猜測Intel可能會更早地跳過Gen4過渡到Gen5。在Intel的規劃表中,今年將推向市場的服務器平臺Sapphire Rapids(Willow Cove)會首次引入DDR5和PCIe Gen5支持,而且支持的通道數上限還將更高。
與此同時,明年推向市場的Intel首個大小核設計的Alder Lake,以及AMD Zen 4都將實現對PCIe Gen5的支持。另外,2019年Intel就宣布其CXL(Compute eXpress Link)緩存一致互聯就將建基于PCIe Gen5。
在我們看來,這是x86陣營兩名市場玩家競爭,帶動周邊I/O大跨步的體現。英韌科技作為PCIe Gen4 SSD控制芯片的領導者,也將抓住PCIe Gen5的科技創新和領先的機會。“今后英韌的產品會逐步變得普及,各種應用場景都會適配。”賴的是說,“我們會走向高端市場,比如說16個通道,再加上PCIe Gen5市場,去開辟我們的新增長點。”
“PCIe Gen5帶寬實際上就是PCIe Gen4的兩倍,每個通道從 16 Gb/s變為32 Gb/s,X8就是256Gb/s。目前已經有了100Gbps、200Gbps的Ethernet Backbone, 用PCIe Gen5 X8去連接服務器所能實現的吞吐量就大了很多。”
雖然就目前來看, PCIe Gen5 “真正走進消費用戶或數據中心,應該還需要一段時間。PCIe Gen4目前剛剛進入到數據中心領域。服務器更新一般是4-5年為一個周期,產品后續淘汰20%-25%。而且PCIe Gen5的產品也比較貴。” 想必最早的PCIe Gen5產品會集中在企業級應用上——正如Gen4最早應用于數據中心,如今開始普及到了消費市場。但由于當前市場的特殊性,PCIe Gen5大約的確會提前來到。先一步有PCIe Gen5的產品落地將是英韌科技這類技術領先的高端應用企業間的新一輪的較量,也很有可能成為新的市場格局建立的起點。
存儲中的AI技術
英韌科技聯合創始人、董事會董事長兼CEO吳子寧博士在FMS 2019(閃存峰會)上曾經做過題為《怎樣通過系統與控制器優化,實現2倍吞吐和IOPS(How to get 2x throughput and IOPS by System and Controller Optimization)》的演講。英韌科技也是較早提出“智能存儲”,或者“AI存儲”的企業之一。
這項技術預期是應用在英韌科技的Tacoma控制器中的,意即主要面向數據中心。
賴的是在采訪中向我們解釋了AI在SSD存儲中的價值。“有個冷熱數據的概念,我們已經驗證了在SSD存儲過程中對冷熱數據進行區分的實現方法。什么是冷熱數據呢?如果某段空間頻繁讀寫,那么這就成為了熱數據;一段空間很長時間采取讀寫一次,那么就是冷數據。”
“我們知道,SSD的PE cycle(Program/Erase Cycle)是有限的。如果頻繁讀寫某一段空間而不做特殊處理,就會影響整體SSD的壽命。如果能夠將冷、熱數據分開,熱的數據比如說放到SLC或者其他PE cycle更久的NAND區間,整個SSD的壽命就會增加不少。這是個使用趨勢。”
“對于數據中心這類應用而言,我相信這樣的技術能夠帶來性能上的提升。”雖然賴的是很謙虛地表示目前仍在“嘗試以后會不會變成流行,能不能給客戶帶來利益”,并表示“希望它會成為趨勢”,但我們認為其發展潛力仍然是相當之甚的,足以成為企業級或至少數據中心類SSD發展的技術趨勢。
吳子寧博士在閃存峰會上的主題演講提到,“英韌科技找到一種方法,基于這些SCM構建低時延SSD。結合網絡(NVMeOF)、軟件(新型的文件系統)上的改進,我們能夠將整體訪問時延縮減85%(從遠程服務器獲取數據)。”吳子寧博士說。
其中針對時延占比較高的SSD,下面這張圖是當時吳子寧博士提到降低SSD時延,各部分的方法。比如SCM介質替代TLC NAND;英韌科技開發的新型ECC架構將控制器的時延降低至5ms;再加上PCIe Gen4將傳輸時間減半。”
這個數據應該是基于XL-FLASH(鎧俠、西數推的一種SCM),相比一般的TLC NAND實現了據說將近10倍的讀取時延縮減,亦極大增加了IOPS(IO per second)。
雖然SCM很快,但同時成本高、容量小。“要造大而快的存儲,最符合直覺的方法應該是把TLC和SCM結合起來。”“關鍵是把熱數據(hot data)放進SCM中,能夠實現快速存儲;而將冷數據(cold data)放進TLC中,以降低成本。”
不過怎么才能知道數據是“冷”的還是“熱”的呢?這其實就是“智能存儲”這個稱謂的由來。英韌科技就應用了AI,或者說神經網絡。首先是做數據識別的模型訓練,喂的數據是PC用戶數據時,據說能夠實現99.94%的精度;針對企業數據應用另外的模型,則可實現94.72%的精度。基于此在控制器中加入冷/熱數據的預測器。
在控制器芯片中,這個預測器應該是個專門的硬件單元。輸入是用戶數據,輸出則是冷熱數據標簽(flag)。存儲管理模塊利用這些數據標簽,將對應的熱數據放到SCM中,將冷數據放進TLC NAND。當然這種設定在英韌現有架構的實施方案中,可能具備了更大的彈性。
這個架構被英韌科技稱作Tacoma架構,即利用CPU和專門的神經網絡加速器進行冷熱數據的預測。應該也是英韌科技Tacoma系列產品名的由來。結合XL-Flash,AI技術,各種讀寫、檢索操作相比沒有應用這些技術的普通SSD(雖然keynote上并沒有明確對比對象),吞吐增加將近2倍。而且它相比由應用去說明冷/熱數據,具備了比較出色的自適應性。
我們特別詢問賴的是,應用于Tacoma的AI專用硬件IP,是否來自英韌科技自己。“也不是一開始就是自己的。存儲中應用AI,我們自己也一直在摸索的過程中。剛開始我們用的是NVDLA(Nvidia Deep Learning Accelerator)。”賴的是說,“后來逐步發現我們的方向,包括聽取了客戶的需求,跟之前有一些不符,所以我們就開始自己做。”
RISC-V成為選擇之一
去年11月份,SiFive發布的博客文章中提到SiFive和英韌科技合作,英韌科技未來的SSD控制器可能會采用SiFive 7-Series核心IP。賴的是表示,“我們一直與ARM緊密合作,目前所有的SSD控制器都使用ARM的CPU。由于RISC-V 逐步成熟,加上我們有不少客戶在要求我們對RISC-V的支持,我們開始考慮把RISC-V作為選擇之一,從而開始和SiFive以及國內的StarFive(賽昉科技)進行了技術討論,探討未來可能的合作。”
“我們對SiFive和StarFive的RISC-V CPU做過一些測試,我們覺得其潛力不錯。其性能和ARM R5系列類似,設計比較靈活,同時也有某些對SSD控制比較友好的功能。”賴的是說。
SiFive也的確在宣傳頁上,提及SiFive面向存儲市場的的7 series。雖然我們不清楚英韌預備在未來推的產品具體會采用哪個IP,不過SiFive方面曾提及ISC(In-Storage Computing) SoC所需的一些關鍵特性。這些特性,實則也能幫我們更深入地理解,SSD主控芯片中的處理器,究竟有什么獨特。
這些特性包括:(1)低時延、實時地執行數據移動,以及智能的損耗均衡管理,實現SSD壽命延長、增強SSD存儲設備的可靠性。(2)跑Linux應用,實現各種數據處理、數據分析、AI計算,在存儲設備內執行;也包括追蹤、debug、高級中斷控制、安全、硬件加密等。(3)“在全球范圍內,降低商業風險,加強產品可用性”。
以上幾點看起來是相當契合英韌科技SSD控制器產品需求的,當然還有Silicon Proven實現層面的問題等等。其中技術選擇多元化、“降低商業風險” 大約也是英韌科技作為一家中國企業,開始選擇RISC-V的原因。
西數一直以來就是RISC-V的支持者,2017年就宣布準備將HDD、SSD和存儲系統的處理器轉向RISC-V,其SweRV核心就是RISC-V架構;此前希捷面向HDD也宣布利用RISC-V控制器做HDD磁頭定位的運動控制信息處理;韓國FADU很早之前就有RISC-V SSD解決方案……或許現有市場環境,對RISC-V而言,是個相當難得的契機。
未來的更多機遇
英韌科技作為成立僅4年的初創企業,已經實現了3顆芯片的流片和量產,產品落地效率還是相當之快的。所以此前CES展一些成熟的SSD產品上都能見到其身影。在我們看來,這類有豐富行業經驗的技術領軍人物帶領的年輕企業,眼中的機遇大概是更能代表存儲行業未來的。除了上述幾個相關SSD的幾個重要趨勢外,賴的是在談英韌科技著眼的方向時,主要提到了兩點。
“一方面是PCIe,剛才已經提到過了,我們可能會更快地跨入到Gen5產品的支持。”賴的是說。
“而在閃存方面,接口速率也在不斷提升。從800 MT/s,到1.2 GT/s、1.6 GT/s甚至更高。這也是我們要投入和保持領先的一個方向。”
“控制器本身要根據這兩邊的情況往前走,我們一直在做相關的開發和跟進。隨著對于這些方向的理解,AI存儲就是為了解決怎樣更高效地使用存儲的問題,存儲就成為了一個存儲系統。”
“我們在這方面都有規劃,包括數據處理的加速,還有存儲系統本身。比如最新的一些存儲系統,像是ZNS(Zoned Namespaces)、Key-Value Object storage的支持等等,都會是我們關注和投入的方面。”這些機遇,理論上應當也是其他SSD控制器市場玩家的機遇。
英韌科技目前面向市場的策略似乎是首先由Shasta、Shasta+以及Rainier,打開消費級、企業級及工業級市場,擴大產量和用戶群。“我們還會有一些迭代,把性能做得更好、功耗做得更低,同時降低成本,讓客戶能夠從中受益。那么今后的產品會更為普及。各種應用場景都會有。包括逐步在數據中心這樣的市場上一展拳腳。“
面向高端客戶端、數據中心和企業級應用的Rainier和Tacoma系列控制器都選擇了臺積電的12nm工藝。“之前的PCIe Gen3,選擇的節點是28nm,PCIe Gen4我們用的節點是12nm。簡單地說,這個節點的優勢在die size上,12nm大概是28nm的一半。”
“而在功耗方面,12nm大概是28nm的40%左右。假設要是用28nm去實現PCIe Gen4的話,功耗會比較大。” 這應該是為英韌科技做企業市場開拓的組成部分。尤其像Tacoma這樣融合了各種尖端技術的SSD控制器,會是我們更加樂見的。
編輯:lyn
-
SSD
+關注
關注
21文章
2897瀏覽量
118040 -
AI
+關注
關注
87文章
31932瀏覽量
270759 -
PCIe
+關注
關注
15文章
1270瀏覽量
83358
原文標題:數據中心SSD存儲發展的幾大趨勢:除了PCIe Gen5和AI,還有這些……
文章出處:【微信號:SSDFans,微信公眾號:SSDFans】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
美光科技推出業界首款PCIe 5.0 60TB數據中心SSD
美光高管看2024年AI數據中心、AI PC的存儲趨勢

SK海力士推出高性能數據中心SSD PEB110
Solidigm發布高性能PCIe 5.0 SSD,引領數據中心存儲新紀元
Solidigm推出兩款數據中心固態存儲硬盤(SSD)
美光發布全新數據中心SSD
美光推出數據中心SSD產品美光9550 NVMe SSD新品
美光推出9550系列數據中心PCIe 5.0 SSD
AI時代,我們需要怎樣的數據中心?AI重新定義數據中心

評論