在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Banana Pi BPI-F3 進(jìn)迭時空RISC-V架構(gòu)下,AI融合算力及其軟件棧實踐

Banana Pi開源硬件 ? 來源:Banana Pi開源硬件 ? 作者:Banana Pi開源硬件 ? 2024-09-07 14:01 ? 次閱讀

RISC-V架構(gòu)下,AI融合算力及其軟件棧實踐

面對未來大模型(LLM)、AIGC等智能化浪潮的挑戰(zhàn),進(jìn)迭時空在RISC-V方向全面布局,通過精心設(shè)計的RISC-V DSA架構(gòu)以及軟硬一體的優(yōu)化策略,將全力為未來打造高效且易用的AI算力解決方案。目前,進(jìn)迭時空已經(jīng)取得了顯著的進(jìn)展,成功推出了第一個版本的智算核(帶AI融合算力的智算CPU)以及配套的AI軟件棧。

wKgaombb7CiATjLSAAF763TGfWQ932.jpg

軟件棧簡介

AI算法部署旨在將抽象描述的多框架算法模型,落地應(yīng)用至具體的芯片平臺,一般采用CPU、GPU、NPU等相關(guān)載體。在目前的邊緣和端側(cè)計算生態(tài)中,大家普遍認(rèn)為NPU相較于傳統(tǒng)CPU有極大的成本優(yōu)勢,并且缺少基于CPU定制AI算力的能力或者授權(quán),導(dǎo)致在實際落地場景中,NPU的使用率很高。但是NPU有其致命的缺點,各家NPU都擁有獨特的軟件棧,其生態(tài)相對封閉,缺乏與其他平臺的互操作性,導(dǎo)致資源難以共享和整合。對于用戶而言,NPU內(nèi)部機(jī)制不透明,使得基于NPU的二次開發(fā),如部署私有的創(chuàng)新算子,往往需要牽涉到芯片廠商,IP廠商和軟件棧維護(hù)方,研發(fā)難度較大。

著眼于這些實際的需求和問題,我們的智算核在設(shè)計和生態(tài)上采取了開放策略。以通用CPU為基礎(chǔ),結(jié)合少量DSA定制(符合RISC-V IME擴(kuò)展框架)和大量微架構(gòu)創(chuàng)新,以通用CPU的包容性最大程度的復(fù)用開源生態(tài)的成果,在兼容開源生態(tài)的前提下,提供TOPS級別的AI算力,加速邊緣AI。這意味著我們可以避免低質(zhì)量的重復(fù)開發(fā),并充分利用開源資源的豐富性和靈活性,以較小的投入快速部署和使用智算核。這種開放性和兼容性不僅降低了部署大量現(xiàn)有AI模型的門檻,還為用戶提供了更多的創(chuàng)新可能性,使得AI解決方案不再是一個專門的領(lǐng)域,而是每個程序員都可以參與和創(chuàng)新的領(lǐng)域。

wKgZombb7CiAY8NnAAGzgHHeUcY588.jpg

圖一:進(jìn)迭時空AI軟件棧架構(gòu)

如上圖所示,基于進(jìn)迭時空的AI技術(shù)路線,我們能輕松的以輕量化插件的方式,無感融入到每一個AI算法部署框架中,目前我們以O(shè)NNXRuntime為基礎(chǔ),結(jié)合深度調(diào)優(yōu)的加速后端,就可以成功的將模型高效的部署到我們的芯片上,如上圖所示。對于用戶來說,如果有ONNXRuntime的使用經(jīng)驗,就可以無縫銜接。

加入進(jìn)迭時空插件的使用方式如下:

? C/C++

C++
#include 
#include "spacemit_ort_env.h"

std::string net_param_path = "your_onnx_model.onnx";

Ort::Env env(ORT_LOGGING_LEVEL_WARNING, "ort-demo");
Ort::SessionOptions session_options;

 // 可選加載SpaceMIT環(huán)境初始化加載專屬EP
Ort::SessionOptionsSpaceMITEnvInit(session_options);
Ort::Session session(env, net_param_path, session_options);

// 加載輸入
// .......
auto output_tensors = session.Run(Ort::RunOptions{nullptr}, input_node_names.data(), &input_tensor, input_count,
 output_node_names.data(), output_count);

? python

Python
import onnxruntime as ort
import numpy as np
import spacemit_ort

net_param_path = "resnet18.q.onnx"
session = ort.InferenceSession(net_param_path, providers=["SpaceMITExecutionProvider"])
input_tensor = np.ones((1, 3, 224, 224), dtype=np.float32)
outputs = session.run(None, {"data": input_tensor})

通過開放的軟件棧,使得我們的芯片能夠在短時間內(nèi)支持大量開源模型的部署,目前已累計驗證了包括圖像分類、圖像分割、目標(biāo)檢測、語音識別、自然語言理解等多個場景的約150個模型的優(yōu)化部署,timm、onnx modelzooppl modelzoo等開源模型倉庫的支持通過率接近100%,而且理論上我們能夠支持所有的公開onnx模型。

智算核的軟硬協(xié)同優(yōu)化

在保證通用性和易用性的同時,我們利用智算核的特點,極大的優(yōu)化了模型推理效率。

離線優(yōu)化

離線優(yōu)化包含常見的等價計算圖優(yōu)化(如常量折疊、算子融合、公共子表達(dá)式消除等)、模型量化等,其中模型量化將浮點計算映射為低位定點計算,是其中效果最顯著的優(yōu)化方式。在智算核融合算力的加持下,算子可編程性很高,相較于NPU固化的量化計算方式,智算核能夠根據(jù)模型應(yīng)用特點,匹配更寬泛的數(shù)據(jù)分布,實現(xiàn)量化計算的精細(xì)化、多樣化,以便于在更小的計算與帶寬負(fù)載下,實現(xiàn)更高的推理效率。

運行時優(yōu)化

區(qū)別于NPU系統(tǒng)中,AI算子會根據(jù)NPU支持與否,優(yōu)先調(diào)度到NPU上執(zhí)行,并以host CPU作為備選執(zhí)行的方式。進(jìn)迭時空的智算核采用了擴(kuò)展AI指令的設(shè)計,以強(qiáng)大的vector算力和scalar算力作為支撐,確保任意算子都能夠在智算核上得到有效執(zhí)行,無需擔(dān)心算子支持或調(diào)度問題。這種設(shè)計不僅簡化了用戶的操作流程,還大大提高了模型的執(zhí)行效率和穩(wěn)定性。

此外,進(jìn)迭時空的智算核還支持多核協(xié)同工作,進(jìn)一步提升了AI算力。用戶只需在運行時通過簡單的線程調(diào)度,即可靈活調(diào)整所使用的AI算力資源。

AI算力指令基礎(chǔ)

智算核的AI算力主要來自擴(kuò)展的AI指令。我們針對AI應(yīng)用中算力占比最高的卷積和矩陣乘法,基于RISCV Vector 1.0 基礎(chǔ)指令,新增了專用加速指令。遵從RISCV社區(qū)IME group的方式,復(fù)用了Vector寄存器資源,以極小的硬件代價,就能給AI應(yīng)用帶來10倍以上的性能提升。

AI擴(kuò)展指令按功能分為點積矩陣乘累加指令(后面簡稱矩陣?yán)奂又噶睿┖突包c積矩陣乘累加指令(后面簡稱滑窗累加指令)兩大類,矩陣?yán)奂又噶詈突袄奂又噶罱M合,可以轉(zhuǎn)化成卷積計算指令。

以256位的向量矩陣配合4*8*4的mac單元為例,量化后的8比特輸入數(shù)據(jù)在向量寄存器中的排布,需要被看成是4行8列的二維矩陣;而量化后的8比特權(quán)重數(shù)據(jù)在寄存器中的排布,會被看成是8行4列的二維矩陣,兩者通過矩陣乘法,得到4行4列輸出數(shù)據(jù)矩陣,由于輸出數(shù)據(jù)是32比特的,需要兩個向量寄存器存放結(jié)果。

如圖二所示,為矩陣?yán)奂又噶睿斎霐?shù)據(jù)只從VS1中讀取,權(quán)重數(shù)據(jù)從VS2中讀取,兩者進(jìn)行矩陣乘法。

wKgaombb7CmAWL6LAAFctX3ko3M158.jpg

圖二:矩陣?yán)奂又噶顢?shù)據(jù)排布示例

如圖三所示,為滑窗累加指令,輸入數(shù)據(jù)只從VS1和VS1+1中讀取,讀取的數(shù)據(jù),通過滑動的大小決定(大小為8的倍數(shù)),權(quán)重數(shù)據(jù)從VS2中讀取,兩者進(jìn)行矩陣乘法。

wKgZombb7CqADZJoAAFYZyJHrZw750.jpg

圖三:滑窗累加指令數(shù)據(jù)排布示例

如下圖所示,9個紅點對應(yīng)的9行輸入數(shù)據(jù)(1*k維)和權(quán)重進(jìn)行乘累加計算,就得到了一個卷積值。在做卷積計算的時候,可以把矩陣乘法看成是滑動為零的滑窗指令。通過滑動0,1,2三條指令的計算,就可以完成kernel size 為3x1的的卷積計算。然后通過h維度的三次循環(huán),就可以得到kernel size 為3x3的卷積計算。

wKgaombb7CuAesT3AAB7kPLeyOY074.jpg

圖四:滑窗累加指令結(jié)合矩陣?yán)奂又噶钣嬎憔矸e示例

同樣通過滑動0,1,2,0,1五條指令的計算,和h維度五次循環(huán),就可以完成kernel size為5x5的卷積計算,以此類推,可以得到任意kernel size的卷積計算。

效果演示視頻

通過以上軟硬件協(xié)同優(yōu)化,我們在多任務(wù)推理時,也有非常高的性能。

重播

00:35

/

00:35

展望

前文提到,通過ONNX與ONNXRuntime的結(jié)合,我們能夠便捷地接入開源生態(tài),但這僅僅是實現(xiàn)接入的眾多方式之一。實際上,我們還可以充分利用當(dāng)前備受矚目的MLIR生態(tài),進(jìn)一步融入開源的廣闊天地。這種方式不僅充滿想象力,而且具備諸多優(yōu)勢。

首先,它能夠?qū)崿F(xiàn)模型的直接原生部署。舉例來說,當(dāng)我們擁有一個PyTorch模型時,借助torch.compile功能,我們可以直接將模型部署到目標(biāo)平臺上,無需繁瑣的轉(zhuǎn)換和適配過程,極大地提升了部署的便捷性。

其次,MLIR生態(tài)與LLVM的緊密結(jié)合為我們提供了強(qiáng)大的codegen能力。這意味著我們可以利用LLVM豐富的生態(tài)系統(tǒng)和工具鏈,進(jìn)行代碼生成和優(yōu)化,從而進(jìn)一步降低AI軟件棧的開發(fā)成本。通過codegen,我們可以將高級別的模型描述轉(zhuǎn)化為底層高效的機(jī)器代碼,實現(xiàn)性能的最優(yōu)化。

wKgZombb7CuADD-mAAHJENmyps4259.jpg

圖五:進(jìn)迭時空AI軟件棧架構(gòu)規(guī)劃

引用

https://onnxruntime.ai/

https://onnx.ai/

https://mlir.llvm.org/

https://pytorch.org/

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    33701

    瀏覽量

    274438
  • 人工智能
    +關(guān)注

    關(guān)注

    1804

    文章

    48503

    瀏覽量

    245274
  • 開發(fā)板
    +關(guān)注

    關(guān)注

    25

    文章

    5428

    瀏覽量

    101195
  • RISC-V
    +關(guān)注

    關(guān)注

    46

    文章

    2463

    瀏覽量

    48092
  • banana pi
    +關(guān)注

    關(guān)注

    1

    文章

    120

    瀏覽量

    3372
  • 進(jìn)迭時空
    +關(guān)注

    關(guān)注

    0

    文章

    21

    瀏覽量

    55
收藏 人收藏

    評論

    相關(guān)推薦
    熱點推薦

    如何快速上手進(jìn)時空K1 RISC-V開發(fā)板:Banana Pi BPI-F3

    BananaPi BPI-F3采用K1內(nèi)核、SPM8821 PMIC+外部DCDC供電方案。存儲采用LPDDR4X和eMMC。外圍設(shè)備有 PCIe 2.0 2 Lane M.2 KEY M、PCIe
    的頭像 發(fā)表于 05-16 12:08 ?1665次閱讀
    如何快速上手<b class='flag-5'>進(jìn)</b><b class='flag-5'>迭</b><b class='flag-5'>時空</b>K1 <b class='flag-5'>RISC-V</b>開發(fā)板:<b class='flag-5'>Banana</b> <b class='flag-5'>Pi</b> <b class='flag-5'>BPI-F3</b>

    RISC-V架構(gòu)DSA-AI的更多可能性:Banana Pi BPI-F3進(jìn)時空

    Banana Pi BPI-F3 進(jìn)時空 K1開發(fā)板AI
    的頭像 發(fā)表于 09-07 10:30 ?3005次閱讀
    <b class='flag-5'>RISC-V</b><b class='flag-5'>架構(gòu)</b><b class='flag-5'>下</b>DSA-<b class='flag-5'>AI</b>算<b class='flag-5'>力</b>的更多可能性:<b class='flag-5'>Banana</b> <b class='flag-5'>Pi</b> <b class='flag-5'>BPI-F3</b><b class='flag-5'>進(jìn)</b><b class='flag-5'>迭</b><b class='flag-5'>時空</b>

    Banana Pi BPI-CanMV-K230D-Zero :AIoT 應(yīng)用的 Kendryte K230D RISC-V

    Banana Pi BPI-CanMV-K230D-Zero 是一款緊湊型低功耗單板計算機(jī),基于 Kendryte K230D 雙核 XuanTie C908 RISC-V 芯片構(gòu)建,
    發(fā)表于 12-05 09:19

    香蕉派 BPI-CM6 工業(yè)級核心板采用進(jìn)時空K1 8核 RISC-V 芯片開發(fā)

    規(guī)格 SpacemiT K1 8 core RISC-V chip (Banana Pi BPI-F3) RISC-V IME set Sp
    發(fā)表于 03-25 14:40

    大象機(jī)器人攜手進(jìn)時空推出 RISC-V開源六軸機(jī)械臂產(chǎn)品

    識別聯(lián)調(diào)。 進(jìn)時空致力于為智能機(jī)器人提供完整全優(yōu)化的RISC-V AI軟硬件解決方案,第一
    發(fā)表于 04-25 17:59

    Banana Pi BPI-F3 進(jìn)時空 RISC-V 開發(fā)板Deepseek支持

    RISC-V
    Banana Pi開源硬件
    發(fā)布于 :2025年02月12日 17:19:38

    RISC-V芯片企業(yè) 進(jìn)時空完成Pre A+ 輪融資

    技術(shù)專家共同組建創(chuàng)立,在半導(dǎo)體、RISC-V架構(gòu)芯片以及云計算領(lǐng)域擁有豐富的成功經(jīng)驗。在芯片設(shè)計開發(fā)基礎(chǔ)之上,進(jìn)時空同時專注于
    的頭像 發(fā)表于 10-14 14:59 ?1723次閱讀

    聯(lián)想入股RISC-V計算芯片商進(jìn)時空

    聯(lián)想入股RISC-V計算芯片商進(jìn)時空 RISC-V計算芯片商進(jìn)
    的頭像 發(fā)表于 07-31 18:49 ?1502次閱讀

    香蕉派發(fā)布RISC-V架構(gòu)BPI-F3開發(fā)板

    2 月 3 日,香蕉派發(fā)布了基于 RISC-V 架構(gòu)處理器的開發(fā)板 BPI-F3。該產(chǎn)品配備了由進(jìn)
    的頭像 發(fā)表于 02-03 16:17 ?1445次閱讀

    RISC-V人才行】 走訪進(jìn)時空

    2024年2月28日,RISC-V國際人才培養(yǎng)認(rèn)證中心蔣學(xué)剛主任、RISC-V基金會大使傅煒等一行,走訪了進(jìn)時空。受到了
    的頭像 發(fā)表于 05-13 17:43 ?639次閱讀
    【<b class='flag-5'>RISC-V</b>人才行】 走訪<b class='flag-5'>進(jìn)</b><b class='flag-5'>迭</b><b class='flag-5'>時空</b>

    Banana Pi BPI-F3 進(jìn)時空SpacemiT K1芯片場景功耗測試

    Banana Pi BPI-F3 進(jìn)時空SpacemiT K1芯片場景功耗測試
    的頭像 發(fā)表于 07-10 10:27 ?761次閱讀

    Banana Pi BPI-F3 進(jìn)時空 RISC-V K1芯片開發(fā)板支持8G/16G內(nèi)存

    香蕉派BPI-F3是一款工業(yè)級 8核RISC-V開源硬件開發(fā)板,它采用進(jìn)時空(SpacemiT) K1 8核
    的頭像 發(fā)表于 07-23 18:49 ?1103次閱讀
    <b class='flag-5'>Banana</b> <b class='flag-5'>Pi</b> <b class='flag-5'>BPI-F3</b> <b class='flag-5'>進(jìn)</b><b class='flag-5'>迭</b><b class='flag-5'>時空</b> <b class='flag-5'>RISC-V</b> K1芯片開發(fā)板支持8G/16G內(nèi)存

    進(jìn)時空亮相RISC-V產(chǎn)業(yè)發(fā)展大會:新AI CPU引領(lǐng)大模型時代

    12月28日,以“發(fā)揮標(biāo)準(zhǔn)優(yōu)勢,繁榮產(chǎn)業(yè)發(fā)展”為主題的RISC-V產(chǎn)業(yè)發(fā)展大會在北京亦莊經(jīng)開區(qū)通明湖會展中心舉行。作為基于新一代RISC-V架構(gòu)的計算生態(tài)企業(yè),進(jìn)
    的頭像 發(fā)表于 12-31 17:32 ?698次閱讀
    <b class='flag-5'>進(jìn)</b><b class='flag-5'>迭</b><b class='flag-5'>時空</b>亮相<b class='flag-5'>RISC-V</b>產(chǎn)業(yè)發(fā)展大會:新<b class='flag-5'>AI</b> CPU引領(lǐng)大模型時代

    進(jìn)時空完成A+輪數(shù)億元融資 加速RISC-V AI CPU產(chǎn)品迭代

    及生態(tài)建設(shè)。在成立至今三年的快速發(fā)展中,進(jìn)時空布局了RISC-V高性能CPU核、AI-CPU核、AICPU芯片、系統(tǒng)
    的頭像 發(fā)表于 02-18 14:22 ?339次閱讀
    <b class='flag-5'>進(jìn)</b><b class='flag-5'>迭</b><b class='flag-5'>時空</b>完成A+輪數(shù)億元融資 加速<b class='flag-5'>RISC-V</b> <b class='flag-5'>AI</b> CPU產(chǎn)品迭代

    大象機(jī)器人×進(jìn)時空聯(lián)合發(fā)布全球首款RISC-V開源小六軸機(jī)械臂

    革新產(chǎn)品——全球首款基于RISC-V開源的六軸協(xié)作機(jī)械臂 myCobot 280 RISC-V進(jìn)
    的頭像 發(fā)表于 04-25 14:19 ?418次閱讀
    大象機(jī)器人×<b class='flag-5'>進(jìn)</b><b class='flag-5'>迭</b><b class='flag-5'>時空</b>聯(lián)合發(fā)布全球首款<b class='flag-5'>RISC-V</b>全<b class='flag-5'>棧</b>開源小六軸機(jī)械臂
    主站蜘蛛池模板: 午夜啪| 亚洲qingse中文字幕久久 | 亚洲欧美国产五月天综合 | 天天插天天操天天射 | 永久免费看片 | 99精品国产第一福利网站 | 女人18毛片水多 | 国产午夜免费视频片夜色 | 亚洲一本之道在线观看不卡 | 七月丁香八月婷婷综合激情 | 天堂影院jav成人天堂免费观看 | 精品国产理论在线观看不卡 | 在线视频 一区二区 | 亚洲高清视频一区 | 国产一级特黄a大片免费 | 综合网伊人 | h网站在线 | 精品欧美激情在线看 | 久久九九国产精品怡红院 | 黄色网址你懂的 | 国产三级a三级三级天天 | 国产精品9999久久久久仙踪林 | 国产福利你懂的 | 亚洲第一久久 | 三级黄色片免费观看 | 黄a一级| 日本啪啪小视频 | 97成人资源| 在线99热 | 成人国产三级精品 | 天堂在线观看视频 | 婷婷四房播客五月天 | 噜噜噜色网 | 亚洲综合狠狠 | 免费一级欧美片片线观看 | 高清一区二区三区四区五区 | 丁香六月色婷婷综合网 | 337p亚洲精品色噜噜狠狠 | 久久久久性 | 成人黄色免费看 | 国产一级做a爱免费视频 |