在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一文讀懂,可重構芯片為何是AI的完美搭檔

穎脈Imgtec ? 2025-03-31 12:05 ? 次閱讀

來源:半導體行業觀察


在當今數字化時代,人工智能AI)無疑是最為耀眼的技術領域之一。從早期簡單的機器學習算法,到如今復雜的深度學習和 Transformer 模型,AI 算法正以前所未有的速度快速發展。這種快速演進使得 AI 在各個領域的應用不斷拓展,從邊緣端的高能效場景,如智能安防攝像頭、智能家居設備,到云端的大算力場景,如數據中心的智能分析、智能語音交互系統等,AI 正逐步滲透到人們生活和工作的方方面面。

在邊緣端,設備對能耗限制嚴格,需在有限電量下完成復雜任務,像實時圖像識別、簡單語音指令處理等。而在云端,面對海量數據和復雜計算需求,如大規模圖像數據集處理、復雜自然語言處理任務等,需要強大計算能力支撐。無論哪種場景,AI 芯片都至關重要,其性能直接決定 AI 應用效果。然而,隨著 AI 算法不斷革新,傳統固定架構芯片逐漸暴露出諸多局限性,難以滿足 AI 算法日益增長的多樣化需求,無法充分發揮硬件性能優勢。

現代神經網絡模型作為AI算法的核心,具有一系列復雜多樣的特征,這些特征對芯片的設計和性能產生了深遠的影響。

神經網絡的拓撲結構復雜且不斷演變。早期神經網絡主要由卷積層和全連接層構成,結構簡單,功能單一。但隨著技術發展,為提升網絡性能和處理復雜任務的能力,諸如 ResNet 的殘差連接結構、注意力機制等復雜拓撲不斷涌現。ResNet 的殘差連接解決了梯度消失問題,使網絡可構建得更深,學習更復雜特征;注意力機制通過動態生成矩陣提取全局信息相關性,帶來不規則拓撲結構,能更聚焦關鍵信息。例如在 2023 年特斯拉 AI Day 展示的網絡中,包含更多類型節點和更復雜連接,旨在模擬人類大腦神經連接,實現更高級智能處理能力。不同網絡拓撲結構決定數據在網絡中的流動和處理方式,對芯片的計算資源分配和數據傳輸路徑提出多樣化需求。

6ba4d8c8-0de5-11f0-9434-92fbcf53809c.png圖1. AI算法呈現出復雜演變的特點

神經網絡模型存在多維度的稀疏性,涵蓋輸入、權重和輸出。為模擬大腦中非活躍神經元,提高計算效率,稀疏性在神經網絡研究中備受關注。實際計算中,稀疏(0 值)操作數不影響計算結果,跳過無效計算可減少整體計算量和內存訪問需求。早期對稀疏性的研究集中在基于剪枝的一維權重稀疏性,如今已發展到利用輸入、權重和輸出的三維稀疏性。例如,在一些模型中,通過檢測輸入數據中的 0 值元素,直接跳過相關計算,避免不必要的計算資源浪費。

6bdf0aca-0de5-11f0-9434-92fbcf53809c.png

圖2. 神經網絡模型精度不斷變化

神經網絡模型在不同層對數據精度要求差異較大。推理階段,模型最初常被量化為統一精度,如 INT8,這種方式雖簡單,但在某些情況下無法充分發揮模型性能。后來發展為每層量化,根據不同層需求調整數據精度,提高推理效率。近期,甚至出現元素級混合精度應用,進一步優化計算資源利用。訓練階段,早期常用的 FP32 和 FP16 雖能保證較高計算精度,但會帶來較高內存和功耗開銷。為降低訓練成本,有人提出使用 FP8,但因其數據表示能力有限,會導致訓練精度損失。因此,混合精度訓練(如 FP16 和 FP8 混合)成為平衡訓練精度和能效的有效解決方案。

這些復雜的模型特征給芯片設計帶來諸多嚴峻挑戰。不同網絡拓撲結構導致數據重用模式和數據訪問時間差異顯著。數據訪問,尤其是對 DRAM 的訪問,相較于計算會帶來顯著時間和功耗開銷。在高性能 AI 芯片設計中,減少內存訪問成本至關重要,這就要求芯片具備靈活的數據流支持能力,以適應不同數據重用模式,降低數據訪問量。不同類型的稀疏性特點不同,增加了芯片設計難度。輸入和權重稀疏性需逐元素計算跳過,輸出稀疏性導致逐向量計算跳過。AI 芯片要充分利用這些稀疏性消除冗余計算,必須具備靈活處理不同稀疏性的能力。不同應用對數據位寬要求不同,AI 芯片需處理多種數據精度,這對處理器的計算單元提出很高要求,需要一個高效的 MAC 單元,既能滿足不同精度計算需求,又能在功耗和面積方面進行優化。

6c251a4c-0de5-11f0-9434-92fbcf53809c.png

圖3. 硬件重構優于軟件編程

為應對這些挑戰,硬件重構成為關鍵技術,相較于軟件編程具有明顯優勢。軟件編程在處理不同拓撲結構時具有一定靈活性,通過插入分支指令處理不同節點,但在處理元素級稀疏性和多種精度時存在局限。軟件編程無法充分利用稀疏性優化計算,對于不同精度計算也難以靈活切換,無法滿足 AI 芯片對靈活性的全面要求。例如,在處理大規模稀疏矩陣計算時,軟件編程可能耗費大量時間和資源處理 0 值元素,而硬件重構能夠全面適應神經網絡的各種結構、稀疏模式和計算精度。它可根據不同神經網絡模型和任務需求,在硬件層面快速調整,實現資源高效利用。處理稀疏性時,硬件重構可通過專門電路設計,直接對稀疏數據進行處理,避免無效計算,提高計算效率。例如,通過設計特定的稀疏數據處理單元,可快速檢測和跳過 0 值操作數,減少計算資源浪費。應對多種數據精度時,硬件重構能靈活切換計算單元精度模式,滿足不同層計算需求。例如,在同一芯片上,可根據不同層需求,動態調整計算單元精度,從低精度的 INT4 到高精度的 FP16,實現資源優化配置。

硬件重構主要在芯片級、處理單元陣列(PEA)級和處理單元(PE)級三個層次進行。芯片級重構旨在處理輸入、權重和輸出的稀疏性,提高硬件利用率,可以通過 BENES 網絡實現。BENES 網絡由雙向開關單元組成,每個開關有旁路和交叉兩種模式。處理輸入和權重稀疏性時,根據操作數是否為零,配置 BENES 網絡為對稱或不對稱結構,將非零操作數路由到 PE 進行計算,并在計算后恢復結果的稀疏位置。對于輸出稀疏性,傳統順序計算存在硬件利用率低和數據重復訪問問題,而亂序計算通過 BENES 網絡優化計算順序,減少向量內存訪問,提高硬件資源利用率。例如,在處理大規模稀疏矩陣乘法時,通過 BENES 網絡的亂序計算,可優化原本需多次訪問內存的數據,減少內存訪問次數,提高計算效率。數據顯示:清微智能從邊緣端 TX5至云端TX8系列可重構芯片 ,硬件利用率均可提升 50% 以上。

PEA 級重構分為整體重構和交錯重構。整體重構中,整個 PE 陣列以特定數據流運行,適用于不同神經網絡順序執行的場景;交錯重構允許多個數據流在單個 PE 陣列上同時運行,適用于需同時計算多個神經網絡的場景。其目的是通過改變數據流,根據不同神經網絡模型的張量大小和數據重用模式,選擇固定某一張量,讓其他張量流動,從而最小化數據訪問。通過調整數據流向和計算順序,提高數據重用率,減少數據在內存和計算單元之間的傳輸次數,進而降低功耗和提高計算效率。與 GPU 相比,GPU 硬件利用率通常僅達 50%,而可重構芯片通過靈活的陣列級重構,能達到 80% 以上的硬件利用率。例如,在處理多個不同類型的神經網絡任務時,可重構芯片的交錯重構能力可同時處理不同任務的數據流,充分利用硬件資源,避免資源閑置。清微智能的 TX8 系列可重構大算力芯片通過這種數據流計算范式使中間數據直接在計算單元之間傳遞,避免大量重復訪存,計算性能和能效水平顯著提升。

PE 級重構的目標是支持多種數據精度,常見技術包括位串行、位融合、浮點融合和部分積重構。位串行從最高有效位(MSB)到最低有效位(LSB)逐位計算,通過配置控制位決定計算周期,適用于超低功耗應用,但吞吐量有限。位融合由多個并行的位磚單元組成,通過空間重組實現靈活的位寬配置,可支持不同精度計算,能顯著提升計算速度,但帶寬利用率較低。在訓練中分離特征圖為 FP16 和 FP8 組,可提高訓練能效,但存在硬件資源浪費問題。浮點融合用于混合精度浮點訓練,通過共享乘法器、對齊器、加法器和歸一化邏輯實現不同精度計算,從而顯著提高硬件資源利用率。部分積重構支持混合整數和浮點計算,通過不同的部分積計算單元配置實現不同精度計算,硬件利用率較高,但功耗相對較大。例如,在對功耗要求極高的邊緣設備中,位串行技術可充分發揮其超低功耗優勢;在對計算速度要求較高的云端應用中,位融合技術可顯著提升計算速度。

6c484792-0de5-11f0-9434-92fbcf53809c.png

圖4. 可重構芯片可實現多層次硬件重構

可重構芯片憑借芯片級、陣列級和 PE 級三級重構能力,在保持編程靈活性的情況下,通過對硬件資源的精細化重構調度和高效利用,實現更高性能和更高能效的 AI 芯片設計。在芯片級,由于 AI 處理的數據存在稀疏性,可重構芯片的芯片級重構能力能跳過無效的 0 值計算,減少內存訪問次數,提高硬件使用效率,更好發揮硬件性能并提高計算能效。在陣列級,可重構芯片能利用其陣列級重構能力,實現數據流計算范式,減少中間數據在存儲器之間的反復搬運,降低訪存能耗,解決 “存儲墻” 問題,同時提高硬件資源利用效率。在 PE 級,可重構芯片利用其 PE 級多精度配置、定浮點融合和資源共享等重構能力,精細控制和調度底層計算資源,顯著提高資源利用率,從而提高芯片面積利用率。

隨著 AI 技術的不斷發展,可重構芯片的應用前景將更加廣闊。它有望為 AI 的持續創新提供強大硬件支持,推動人工智能技術邁向新高度。

在未來,隨著 AI 算法進一步發展和應用場景不斷拓展,可重構芯片將在更多領域發揮重要作用。國內規模最大的可重構芯片廠商清微智能,目前已量產TX5和TX8兩大系列十余款芯片,覆蓋云邊端應用場景,廣泛應用至智能安防、智能機器人、智算中心,大模型市場,實現可重構芯片從0到1的探索實踐。脫胎于斯坦福大學頂尖科研團隊的 SambaNova Systems,在2023年就成為AI 芯片估值最高的獨角獸標桿。

參考鏈接

1.Shouyi Yin. Reconfigurable Machine Learning Processor: Fundamental Concepts, Applications, and Future Trends.ASSCC 2023 Tutorial.

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 芯片
    +關注

    關注

    459

    文章

    51927

    瀏覽量

    433833
  • AI
    AI
    +關注

    關注

    87

    文章

    33554

    瀏覽量

    274267
  • 人工智能
    +關注

    關注

    1804

    文章

    48449

    瀏覽量

    245071
收藏 人收藏

    評論

    相關推薦

    微:AI存力芯片重構計算范式

    電子發燒友網報道(/黃晶晶)今年以來,AI手機、AI PC、DeepSeek 訓推體機已經成為AI端側落地的熱門終端產品。與此同時,新能
    的頭像 發表于 04-21 16:22 ?653次閱讀
    得<b class='flag-5'>一</b>微:<b class='flag-5'>AI</b>存力<b class='flag-5'>芯片</b>,<b class='flag-5'>重構</b>計算范式

    **【技術干貨】Nordic nRF54系列芯片:傳感器數據采集與AI機器學習的完美結合**

    【技術干貨】nRF54系列芯片:傳感器數據采集與AI機器學習的完美結合 近期收到不少伙伴咨詢nRF54系列芯片的應用與技術細節,今天我們整理幾個核心問題與解答,帶你快速掌握如何在nRF
    發表于 04-01 00:00

    2.5D封裝為何成為AI芯片的“寵兒”?

    2.5D封裝領域,英特爾的EMIB和臺積電的CoWoS是兩大明星技術。眾所周知,臺積電的CoWoS產能緊缺嚴重制約了AI芯片的發展,這正是英特爾EMIB技術可以彌補的地方。本文我們將以英特爾EMIB為例,深入解析2.5D封裝之所以能成為
    的頭像 發表于 03-27 18:12 ?183次閱讀
    2.5D封裝<b class='flag-5'>為何</b>成為<b class='flag-5'>AI</b><b class='flag-5'>芯片</b>的“寵兒”?

    FPGA+AI王炸組合如何重塑未來世界:看看DeepSeek東方神秘力量如何預測......

    制程、異構計算、高帶寬內存和重構架構展開,應用領域涵蓋 AI、5G、數據中心、自動駕駛和工業物聯網。通過優化生態系統、制定有效市場策略、應對挑戰,FPGA 將在多個領域繼續發揮關鍵作用。
    發表于 03-03 11:21

    名單公布!【書籍評測活動NO.57】芯片通識課:本書讀懂芯片技術

    段漫長的歲月,但不定知曉芯片是如何制造出來的,制造的難度又在哪里。《芯片通識課:本書讀懂
    發表于 02-17 15:43

    鯤云科技AI芯片CAISA 430成功適配DeepSeek R1模型

    鯤云科技全新代的重構數據流 AI 芯片 CAISA 430 成功適配 DeepSeek R1 蒸餾模型推理,這
    的頭像 發表于 02-07 09:57 ?970次閱讀
    鯤云科技<b class='flag-5'>AI</b><b class='flag-5'>芯片</b>CAISA 430成功適配DeepSeek R1模型

    讀懂:LED 驅動電路二極管挑選要點

    讀懂:LED 驅動電路二極管挑選要點
    的頭像 發表于 02-06 14:47 ?381次閱讀

    讀懂什么是「雷電4」

    Thunderbolt讀懂什么是「雷電4」目前大部分PC接口配備了USB接口、音頻接口、HDMI接口等,這些接口的功能基本覆蓋了用戶的日常使用需求。為了提供更高速、更便捷的數據傳輸和設備連接體
    的頭像 發表于 02-05 17:52 ?1173次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>讀懂</b>什么是「雷電4」

    TB1801線性車燈專用芯片完美替代LAN1165E

    TB1801線性車燈專用芯片完美替代LAN1165E1、產品概述TB1801 是款專為 12V 燈珠設計的汽車燈專用的低壓差恒流芯片,輸
    發表于 12-31 10:00

    讀懂單燈控制器工作原理

    讀懂單燈控制器工作原理
    的頭像 發表于 11-11 13:13 ?905次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>讀懂</b>單燈控制器工作原理

    讀懂MSA(測量系統分析)

    讀懂MSA(測量系統分析)
    的頭像 發表于 11-01 11:08 ?1371次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>讀懂</b>MSA(測量系統分析)

    讀懂新能源汽車的功能安全

    電子發燒友網站提供《讀懂新能源汽車的功能安全.pdf》資料免費下載
    發表于 09-04 09:22 ?3次下載

    AI芯片的混合精度計算與靈活擴展

    電子發燒友網報道(/李彎彎)當前,AI技術和應用蓬勃發展,其中離不開AI芯片的支持。AI芯片
    的頭像 發表于 08-23 00:08 ?5611次閱讀

    讀懂汽車控制芯片(MCU)

    本文從工作要求,性能要求,產業格局,行業壁壘四個維度,分別介紹車身、底盤、動力、座艙四個域的MCU芯片。并整理了國產MCU芯片的應用現狀,供從業者參考。1.控制類芯片介紹控制類芯片主要
    的頭像 發表于 07-22 16:44 ?6409次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>讀懂</b>汽車控制<b class='flag-5'>芯片</b>(MCU)

    AI芯片哪里買?

    AI芯片
    芯廣場
    發布于 :2024年05月31日 16:58:19
    主站蜘蛛池模板: 一级片黄色免费 | 国产亚洲婷婷香蕉久久精品 | 真实的国产乱xxxx在线 | 色多多在线观看视频 | 男女视频在线观看免费 | 国产激烈无遮挡免费床戏视频 | 伊人久久精品成人网 | 国产69精品久久久久9999 | 97色在线| 亚洲一二三四区 | 香蕉狠狠再啪线视频 | 国产美女影院 | 国产精品久久久香蕉 | 午夜三级理论在线观看视频 | 亚洲一区在线免费观看 | 日本理论午夜中文字幕第一页 | 天天射天天干 | 亚洲人一区 | 欧美亚洲综合一区 | 日本一级大片 | 午夜一区二区三区 | 欧美亚洲综合图区在线 | 黄色三级视频网站 | 中文字幕亚洲一区 | 97人人模人人揉人人捏 | 好爽的视频黄 | 日日噜噜爽爽狠狠视频 | 日本一本高清视频 | 色多多网站 | 国模最新私拍视频在线观看 | 夜夜摸天天操 | 奇米影视四色7777久久精品 | 毛片在线播放网站 | 77788色淫免费网站视频 | 中文字幕亚洲一区二区v@在线 | 天堂网在线最新版www中文网 | 性欧美www | 欧美成网站 | 五月婷婷六月丁香在线 | 欧美色图一区二区 | 国产成人精品三级 |