本土RISC-V CPU IP領(lǐng)軍企業(yè)——芯來科技正式發(fā)布首款針對人工智能應(yīng)用的專用處理器產(chǎn)品線Nuclei Intelligence(NI)系列,以及NI系列的第一款AI專用RISC-V處理器CPU IP——NI900系列內(nèi)核。
隨著Chatgpt的橫空出世,全球掀起一股AI的浪潮,從云端數(shù)據(jù)中心到邊緣側(cè)對AI的需求進一步提升。AI應(yīng)用主要分布在訓練和推理,需要大量的并行計算和NPU來完成,更離不開高性能CPU的算力加持。CPU有著廣泛的普及性、兼容性、可擴展性和可靠性,并通過多核多節(jié)點進行串行計算、混合計算和安全防護等復(fù)雜任務(wù);除此之外,CPU的通用矢量(Vector)指令集也可以提供強大且通用的并行計算能力,在AI領(lǐng)域進行高效的并行計算、前處理、后處理、激活函數(shù)等工作,更加靈活地處理GPU和NPU相對難以處理的復(fù)雜計算任務(wù)。
近期OpenAI發(fā)布的Sora模型將AI能夠理解和生成的內(nèi)容模態(tài)從文字和圖片拓展到視頻,進一步證明基礎(chǔ)模型能力上限不斷被突破,想象空間被打開,對算力基礎(chǔ)設(shè)施的需求也遠沒有停止。芯來科技此次推出的NI900重點布局AI應(yīng)用場景,助力本土芯片設(shè)計公司快速完成AI產(chǎn)品的設(shè)計。
NI900基于900系列處理器,針對“AI應(yīng)用”進行了多項特性優(yōu)化
基礎(chǔ)標量處理器:
可以配置為900系列的RV32或RV64的任何一款N900、U900、NX900、UX900。
RVV1.0 VPU: 可配置基于RISC-V V Extension(RVV1.0 Vector指令集)的VPU單元,VPU的VLEN可配置為512-bit或者1024-bit。在INT8數(shù)據(jù)類型下對性能帶來的提升達數(shù)百倍;在INT32與FP32數(shù)據(jù)類型下對性能帶來的提升達數(shù)十倍。 NPU加速器:
可通過NI900的IOCP(IO Coherent Port)與處理器緊耦合,實現(xiàn)對CPU內(nèi)部Cache的一致性。
用戶自定義指令擴展接口: 用戶可以使用Nuclei的NICE硬件擴展接口,增加自己自定義的指令,包括Scalar或Vector指令。
NI900支持RISC-VVector1.0標準
矢量擴展被稱之為RV指令集標準最重要的一組擴展,2015年發(fā)起,2021年正式生成標準。
RVV 1.0支持的數(shù)據(jù)類型廣泛,運算類型豐富且可動態(tài)擴展,同一套指令可無修改適配各種微架構(gòu)實現(xiàn)。
RISC-V GCC從10.2版本已經(jīng)支持RVV1.0指令,目前GCC13對應(yīng)的intrinsic API接口已經(jīng)升級到最新v0.12版本,且已部分支持自動向量化;預(yù)計GCC14正式發(fā)布,GCC的自動向量化會更加完備。RISC-V CLANG17版本也已支持最新v0.12版本intrinsic APl, 支持自動向量化。
RISC-V Linux 5.18 版本開始支持RVV,其它各種計算庫及應(yīng)用中間件都快速支持了RVV1.0。
有了RVV1.0標準和軟件生態(tài)的完備,為應(yīng)對AI算力的需求,需要RISC-V CPU 在微架構(gòu)設(shè)計上做更多有針對性的設(shè)計。
NI900擁有強大的并行計算能力
RVV參數(shù)描述:
VLEN:一個向量寄存器的總bit數(shù)(寬度)
DLEN:內(nèi)部運算單元能夠并行處理的一個向量元素的最大bit數(shù)
ELEN:并行處理的數(shù)據(jù)類型的最大寬度,如果ELEN=32,則最大的處理數(shù)據(jù)類型是INT32和FP32
可配選項 | 參數(shù)值 |
VLEN_512 | VLEN=512,DLEN=512,ELEN=32/64 |
VLEN_1024 | VLEN=1024,DLEN=1024,ELEN=32/64 |
VPU支持的數(shù)據(jù)類型和計算能力:
1024-bit的VPU支持多種數(shù)據(jù)類型的計算,包括:INT8 / 16 / 32 / 64, BFP16 / FP16 / FP32 / FP64。
1024-bit的VPU支持每個時鐘完成128x8-bit / 64x16-bit / 32x32-bit / 16x64-bit的數(shù)據(jù)計算
NI900擁有強大的Memory讀寫能力
?
VPU和CoreLSU共享MMU資源
VPU并非獨立的協(xié)處理器,而是與主Core的內(nèi)存空間實現(xiàn)完全的Coherent
Vector指令與普通Scalar一樣,支持虛擬地址訪問,使得NI900的Vector指令可以無縫運行于大型操作系統(tǒng)之上
VPU和CoreLSU共享Memory資源與通道
VPU擁有最高1024-bit位寬直接訪問DLM
DLM具備1024-bit的SlavePort供SoC訪問
可單獨配置VLMport以進一步增加性能
VLMport可以直接連接到外部加速器或者內(nèi)存
VLMport位寬=VLEN(目前支持最多1024-bit)
ScalarCore也可以通過LoadStore訪問到VLM區(qū)間
NI900的VPU帶來極大的性能提升
通過強大的運算能力與強勁的Memory讀寫通道,NI900能帶來極大的并行計算性能提升。
如圖所示,VLEN=1024-bit的VPU在INT8數(shù)據(jù)類型下對性能帶來的提升達數(shù)百倍:
?
如圖所示,VLEN=1024-bit的VPU在INT32數(shù)據(jù)類型下對性能帶來的提升達數(shù)十倍:
如圖所示,VLEN=512-bit的VPU在FP32數(shù)據(jù)類型下對性能帶來的提升達數(shù)十倍:
NI900支持NPU等AI加速器與處理器緊耦合,實現(xiàn)對CPU內(nèi)部Cache的一致性
NI900支持整合外部AI加速器、NPU、PCIe、DMA,通過900系列的IOCP(IO Coherent Port)與900系列處理器緊耦合,實現(xiàn)對CPU內(nèi)部Cache的一致性。
NI900的Scalar/VectorNICE自定義指令接口提供更多特定場景的優(yōu)化可能性 NICE(Nuclei Instruction Co-unit Extension)是芯來CPU IP的一種用戶可擴展指令接口機制,允許用戶基于芯片的標準通用CPU內(nèi)核定義自己的擴展指令集。
NI900提供用于Scalar指令擴展的NICE接口,可支持單周期,多周期,流水線等不同指令類型
NI900提供用于Vector指令擴展的NICE接口,可支持單周期,多周期,流水線等不同指令類型
NI900的NICE擴展單元不僅可以進行運算型的自定義指令擴展,還可以通過專用總線訪問Core的存儲資源(DCache等)實現(xiàn)與主Core的內(nèi)存一致性,總線位寬可以達到VLEN(最高1024-bit)
用戶可以結(jié)合自己的應(yīng)用擴展自定義指令,將NI900處理器內(nèi)核擴展成為面向AI領(lǐng)域進一步強化的專用處理器。
RISC-V生態(tài)日益成熟,芯來NI900賦能AI時代
CPU是算力結(jié)構(gòu)中必不可少的一個環(huán)節(jié),在已經(jīng)到來的人工智能算力時代,通用和專用芯片結(jié)合而成的異構(gòu)計算是未來AI算力基礎(chǔ)設(shè)施的主流。芯來致力于提供標量、矢量、以及自定義指令結(jié)合的計算架構(gòu),以滿足端側(cè)云側(cè)數(shù)據(jù)中心的多元化的算力需求。
目前NI900已經(jīng)獲得多家下游客戶的認可并投入產(chǎn)品設(shè)計中,未來芯來將推出更多NI系列處理器內(nèi)核IP,賦能AI時代的算力基礎(chǔ)設(shè)施建設(shè)。
審核編輯:劉清
-
處理器
+關(guān)注
關(guān)注
68文章
19436瀏覽量
231314 -
人工智能
+關(guān)注
關(guān)注
1796文章
47789瀏覽量
240547 -
RISC-V
+關(guān)注
關(guān)注
45文章
2328瀏覽量
46672 -
AI加速器
+關(guān)注
關(guān)注
1文章
69瀏覽量
8678 -
芯來科技
+關(guān)注
關(guān)注
0文章
62瀏覽量
3093
原文標題:芯來科技發(fā)布最新NI系列內(nèi)核,NI900矢量寬度可達512/1024位
文章出處:【微信號:nucleisys,微信公眾號:芯來科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論