隨著大模型時(shí)代的到來(lái),AI算力逐漸變成重要的戰(zhàn)略資源,對(duì)現(xiàn)有AI芯片也提出了前所未有的挑戰(zhàn):大算力的需求、高吞吐量與低延時(shí)、高效內(nèi)存管理、能耗等等。
存算一體架構(gòu)是可能有效解決當(dāng)前芯片瓶頸的路徑之一,通過(guò)將數(shù)據(jù)存儲(chǔ)與處理單元集成,顯著減少了數(shù)據(jù)在芯片內(nèi)部的傳輸,降低延遲和能耗,提高計(jì)算速度。
此外,針對(duì)大模型的特定需求,芯片設(shè)計(jì)也在不斷創(chuàng)新,以更好地支持并行處理和高效率的數(shù)據(jù)流動(dòng)。這些技術(shù)發(fā)展不僅對(duì)推動(dòng)人工智能領(lǐng)域的進(jìn)步至關(guān)重要,也為芯片設(shè)計(jì)和制造業(yè)帶來(lái)了新的機(jī)遇和挑戰(zhàn)。
Q1?當(dāng)前主流的大模型對(duì)于底層推理芯片提出了哪些挑戰(zhàn)?
1、算力需求:由于大模型計(jì)算量的提升,對(duì)算力的需求也飛速增長(zhǎng)。考慮到芯片光罩面積的限制,一方面需要通過(guò)電路優(yōu)化提升算力密度,另一方面需要通過(guò)先進(jìn)集成等手段突破芯片面積的限制。
2、高吞吐量與低延時(shí):大模型推理分為prefill和decoding兩個(gè)階段,兩階段的推理延遲分別影響用戶(hù)得到首個(gè)token的延遲(time to first token,TTFT)和生成階段逐token的輸出延遲(time per output token,TPOT),優(yōu)化兩個(gè)階段的延遲可以提升用戶(hù)在使用推理服務(wù)時(shí)的體驗(yàn)。由于prefill階段需要在單次推理處理完整的prompt輸入,是計(jì)算密集的,所以prefill階段需要通過(guò)提升芯片的算力來(lái)降低延遲。另一方面,decoding階段中,每個(gè)請(qǐng)求只處理一個(gè)token,是訪存密集的,因此需要提升芯片的訪存帶寬來(lái)降低延遲。
3、高效內(nèi)存管理:在提供大模型推理服務(wù)時(shí),不同用戶(hù)的請(qǐng)求到達(dá)時(shí)間,prompt長(zhǎng)度,以及生成長(zhǎng)度均不相同,所以在動(dòng)態(tài)batching時(shí)不同請(qǐng)求間的KV Cache長(zhǎng)度往往不同,從而導(dǎo)致KV Cache的碎片化問(wèn)題。因此,諸如vLLM等優(yōu)化KV Cache的碎片化問(wèn)題的內(nèi)存管理方案被提出,從而顯著提升GPU上的內(nèi)存利用率。
4、能耗:對(duì)于每個(gè)sequence的生成,decoding階段每次只處理單個(gè)token,從而導(dǎo)致在生成的過(guò)程中需要反復(fù)搬運(yùn)權(quán)重到片上緩存,產(chǎn)生高訪存能耗。
5、可編程性與靈活性:隨著深度學(xué)習(xí)和人工智能領(lǐng)域快速發(fā)展,新的算法和模型不斷涌現(xiàn)。芯片應(yīng)具有一定的可編程性和靈活性,以適應(yīng)這些變化,不僅僅針對(duì)當(dāng)前的算法進(jìn)行優(yōu)化。
Q2?大模型時(shí)代的需求,存算一體芯片會(huì)是更優(yōu)解嗎?
1、存算一體的優(yōu)勢(shì)與大模型需求的契合點(diǎn):CIM(Computing in Memory)具備高計(jì)算密度、高計(jì)算能效的優(yōu)勢(shì),適合大模型Prefill階段的處理。在同樣芯片面積限制下,有望提供超過(guò)當(dāng)前GPU的算力。另外,對(duì)圖片、視頻等領(lǐng)域生成模型,算力的需求將進(jìn)一步上升,CIM高算力密度的優(yōu)勢(shì)可以進(jìn)一步發(fā)揮。
2、方向一:近存路線:基于DRAM的近存計(jì)算架構(gòu)能夠處理decoding階段訪存密集的矩陣向量乘法操作。通過(guò)在DRAM的bank附近放置處理單元,它們可以減少搬運(yùn)權(quán)重的能耗,并且通過(guò)近bank處理單元的并行計(jì)算提升訪存帶寬,從而獲得推理加速。但是由于DRAM的工藝限制,近存處理單元的算力較弱,無(wú)法高效處理prefill階段的計(jì)算密集算子,因此往往需要與GPU配合工作,完成整個(gè)推理流程。
3、方向二:近存+存算路線:CIM+PIM的混合異構(gòu)方案,可以同時(shí)滿(mǎn)足Prefill高算力和Decode高存儲(chǔ)帶寬和容量的需求,實(shí)現(xiàn)優(yōu)勢(shì)互補(bǔ),超過(guò)當(dāng)前的同構(gòu)方案。
未來(lái),隨著技術(shù)進(jìn)步和創(chuàng)新設(shè)計(jì)的不斷涌現(xiàn),芯片技術(shù)將進(jìn)一步突破現(xiàn)有極限,實(shí)現(xiàn)更低的能耗和更高的計(jì)算性能。存算一體技術(shù)也將為芯片行業(yè)提供更多創(chuàng)新發(fā)展路徑。
-
人工智能
+關(guān)注
關(guān)注
1804文章
48449瀏覽量
245054 -
存算一體
+關(guān)注
關(guān)注
0文章
106瀏覽量
4557 -
大模型
+關(guān)注
關(guān)注
2文章
2941瀏覽量
3685
原文標(biāo)題:存算十問(wèn)|(十):面向大模型時(shí)代,存算一體是更優(yōu)解嗎?
文章出處:【微信號(hào):后摩智能,微信公眾號(hào):后摩智能】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
谷歌新一代 TPU 芯片 Ironwood:助力大規(guī)模思考與推理的 AI 模型新引擎?
詳解 LLM 推理模型的現(xiàn)狀

模型原生操作系統(tǒng):機(jī)遇、挑戰(zhàn)與展望 CCCF精選

黑芝麻智能芯片加速DeepSeek模型推理
摩爾線程宣布成功部署DeepSeek蒸餾模型推理服務(wù)
中國(guó)電提出大模型推理加速新范式Falcon

復(fù)旦提出大模型推理新思路:Two-Player架構(gòu)打破自我反思瓶頸

阿里云開(kāi)源推理大模型QwQ
使用vLLM+OpenVINO加速大語(yǔ)言模型推理

高效大模型的推理綜述

評(píng)論