在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

當(dāng)前主流的大模型對(duì)于底層推理芯片提出了哪些挑戰(zhàn)

后摩智能 ? 來(lái)源:后摩智能 ? 2024-09-24 16:57 ? 次閱讀

隨著大模型時(shí)代的到來(lái),AI算力逐漸變成重要的戰(zhàn)略資源,對(duì)現(xiàn)有AI芯片也提出了前所未有的挑戰(zhàn):大算力的需求、高吞吐量與低延時(shí)、高效內(nèi)存管理、能耗等等。

存算一體架構(gòu)是可能有效解決當(dāng)前芯片瓶頸的路徑之一,通過(guò)將數(shù)據(jù)存儲(chǔ)與處理單元集成,顯著減少了數(shù)據(jù)在芯片內(nèi)部的傳輸,降低延遲和能耗,提高計(jì)算速度。

此外,針對(duì)大模型的特定需求,芯片設(shè)計(jì)也在不斷創(chuàng)新,以更好地支持并行處理和高效率的數(shù)據(jù)流動(dòng)。這些技術(shù)發(fā)展不僅對(duì)推動(dòng)人工智能領(lǐng)域的進(jìn)步至關(guān)重要,也為芯片設(shè)計(jì)和制造業(yè)帶來(lái)了新的機(jī)遇和挑戰(zhàn)。

Q1?當(dāng)前主流的大模型對(duì)于底層推理芯片提出了哪些挑戰(zhàn)?

1、算力需求:由于大模型計(jì)算量的提升,對(duì)算力的需求也飛速增長(zhǎng)。考慮到芯片光罩面積的限制,一方面需要通過(guò)電路優(yōu)化提升算力密度,另一方面需要通過(guò)先進(jìn)集成等手段突破芯片面積的限制。

2、高吞吐量與低延時(shí):大模型推理分為prefill和decoding兩個(gè)階段,兩階段的推理延遲分別影響用戶(hù)得到首個(gè)token的延遲(time to first token,TTFT)和生成階段逐token的輸出延遲(time per output token,TPOT),優(yōu)化兩個(gè)階段的延遲可以提升用戶(hù)在使用推理服務(wù)時(shí)的體驗(yàn)。由于prefill階段需要在單次推理處理完整的prompt輸入,是計(jì)算密集的,所以prefill階段需要通過(guò)提升芯片的算力來(lái)降低延遲。另一方面,decoding階段中,每個(gè)請(qǐng)求只處理一個(gè)token,是訪存密集的,因此需要提升芯片的訪存帶寬來(lái)降低延遲。

3、高效內(nèi)存管理:在提供大模型推理服務(wù)時(shí),不同用戶(hù)的請(qǐng)求到達(dá)時(shí)間,prompt長(zhǎng)度,以及生成長(zhǎng)度均不相同,所以在動(dòng)態(tài)batching時(shí)不同請(qǐng)求間的KV Cache長(zhǎng)度往往不同,從而導(dǎo)致KV Cache的碎片化問(wèn)題。因此,諸如vLLM等優(yōu)化KV Cache的碎片化問(wèn)題的內(nèi)存管理方案被提出,從而顯著提升GPU上的內(nèi)存利用率。

4、能耗:對(duì)于每個(gè)sequence的生成,decoding階段每次只處理單個(gè)token,從而導(dǎo)致在生成的過(guò)程中需要反復(fù)搬運(yùn)權(quán)重到片上緩存,產(chǎn)生高訪存能耗。

5、可編程性與靈活性:隨著深度學(xué)習(xí)和人工智能領(lǐng)域快速發(fā)展,新的算法和模型不斷涌現(xiàn)。芯片應(yīng)具有一定的可編程性和靈活性,以適應(yīng)這些變化,不僅僅針對(duì)當(dāng)前的算法進(jìn)行優(yōu)化。

Q2?大模型時(shí)代的需求,存算一體芯片會(huì)是更優(yōu)解嗎?

1、存算一體的優(yōu)勢(shì)與大模型需求的契合點(diǎn):CIM(Computing in Memory)具備高計(jì)算密度、高計(jì)算能效的優(yōu)勢(shì),適合大模型Prefill階段的處理。在同樣芯片面積限制下,有望提供超過(guò)當(dāng)前GPU的算力。另外,對(duì)圖片、視頻等領(lǐng)域生成模型,算力的需求將進(jìn)一步上升,CIM高算力密度的優(yōu)勢(shì)可以進(jìn)一步發(fā)揮。

2、方向一:近存路線:基于DRAM的近存計(jì)算架構(gòu)能夠處理decoding階段訪存密集的矩陣向量乘法操作。通過(guò)在DRAM的bank附近放置處理單元,它們可以減少搬運(yùn)權(quán)重的能耗,并且通過(guò)近bank處理單元的并行計(jì)算提升訪存帶寬,從而獲得推理加速。但是由于DRAM的工藝限制,近存處理單元的算力較弱,無(wú)法高效處理prefill階段的計(jì)算密集算子,因此往往需要與GPU配合工作,完成整個(gè)推理流程。

3、方向二:近存+存算路線:CIM+PIM的混合異構(gòu)方案,可以同時(shí)滿(mǎn)足Prefill高算力和Decode高存儲(chǔ)帶寬和容量的需求,實(shí)現(xiàn)優(yōu)勢(shì)互補(bǔ),超過(guò)當(dāng)前的同構(gòu)方案。

未來(lái),隨著技術(shù)進(jìn)步和創(chuàng)新設(shè)計(jì)的不斷涌現(xiàn),芯片技術(shù)將進(jìn)一步突破現(xiàn)有極限,實(shí)現(xiàn)更低的能耗和更高的計(jì)算性能。存算一體技術(shù)也將為芯片行業(yè)提供更多創(chuàng)新發(fā)展路徑。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1804

    文章

    48449

    瀏覽量

    245054
  • 存算一體
    +關(guān)注

    關(guān)注

    0

    文章

    106

    瀏覽量

    4557
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2941

    瀏覽量

    3685

原文標(biāo)題:存算十問(wèn)|(十):面向大模型時(shí)代,存算一體是更優(yōu)解嗎?

文章出處:【微信號(hào):后摩智能,微信公眾號(hào):后摩智能】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    谷歌新一代 TPU 芯片 Ironwood:助力大規(guī)模思考與推理的 AI 模型新引擎?

    電子發(fā)燒友網(wǎng)報(bào)道(文 / 李彎彎)日前,谷歌在 Cloud Next 大會(huì)上,隆重推出了最新一代 TPU AI 加速芯片 ——Ironwood。據(jù)悉,該芯片預(yù)計(jì)于今年晚些時(shí)候面向 Google
    的頭像 發(fā)表于 04-12 00:57 ?1723次閱讀

    詳解 LLM 推理模型的現(xiàn)狀

    2025年,如何提升大型語(yǔ)言模型(LLM)的推理能力成了最熱門(mén)的話(huà)題之一,大量?jī)?yōu)化推理能力的新策略開(kāi)始出現(xiàn),包括擴(kuò)展推理時(shí)間計(jì)算、運(yùn)用強(qiáng)化學(xué)習(xí)、開(kāi)展監(jiān)督微調(diào)和進(jìn)行提煉等。本文將深入探討
    的頭像 發(fā)表于 04-03 12:09 ?179次閱讀
    詳解 LLM <b class='flag-5'>推理模型</b>的現(xiàn)狀

    模型原生操作系統(tǒng):機(jī)遇、挑戰(zhàn)與展望 CCCF精選

    本文立足人工智能時(shí)代用戶(hù)、應(yīng)用和系統(tǒng)的需求,分析“外掛式模型”演進(jìn)路徑下的操作系統(tǒng)發(fā)展困局,提出通過(guò)“模型-系統(tǒng)-芯片”的全棧協(xié)同設(shè)計(jì)來(lái)構(gòu)建模型
    的頭像 發(fā)表于 03-14 17:46 ?352次閱讀
    <b class='flag-5'>模型</b>原生操作系統(tǒng):機(jī)遇、<b class='flag-5'>挑戰(zhàn)</b>與展望  CCCF精選

    黑芝麻智能芯片加速DeepSeek模型推理

    近日,黑芝麻智能宣布,其武當(dāng)C1200家族芯片已成功完成DeepSeek模型推理的部署,而A2000芯片也將全面支持基于DeepSeek的多模態(tài)大
    的頭像 發(fā)表于 02-14 15:04 ?435次閱讀

    摩爾線程宣布成功部署DeepSeek蒸餾模型推理服務(wù)

    近日,摩爾線程智能科技(北京)有限責(zé)任公司在其官方渠道發(fā)布了一則重要消息,宣布公司已經(jīng)成功實(shí)現(xiàn)了對(duì)DeepSeek蒸餾模型推理服務(wù)的部署。這一技術(shù)突破,標(biāo)志著摩爾線程在人工智能領(lǐng)域邁出了堅(jiān)實(shí)的一步
    的頭像 發(fā)表于 02-06 13:49 ?635次閱讀

    中國(guó)電提出模型推理加速新范式Falcon

    近日,中國(guó)電信翼支付針對(duì)大模型推理加速的最新研究成果《Falcon: Faster and Parallel Inference of Large Language Models through
    的頭像 發(fā)表于 01-15 13:49 ?452次閱讀
    中國(guó)電<b class='flag-5'>提出</b>大<b class='flag-5'>模型</b><b class='flag-5'>推理</b>加速新范式Falcon

    如何開(kāi)啟Stable Diffusion WebUI模型推理部署

    如何開(kāi)啟Stable Diffusion WebUI模型推理部署
    的頭像 發(fā)表于 12-11 20:13 ?399次閱讀
    如何開(kāi)啟Stable Diffusion WebUI<b class='flag-5'>模型</b><b class='flag-5'>推理</b>部署

    復(fù)旦提出模型推理新思路:Two-Player架構(gòu)打破自我反思瓶頸

    在 AI 領(lǐng)域,近期的新聞焦點(diǎn)無(wú)疑是關(guān)于「Scaling Law 是否撞墻?」的辯論。這一曾經(jīng)被視作大模型發(fā)展的第一性原理,如今卻遭遇了挑戰(zhàn)。 ? 在這樣的背景下,研究人員開(kāi)始意識(shí)到,與其單純堆砌
    的頭像 發(fā)表于 12-06 11:24 ?576次閱讀
    復(fù)旦<b class='flag-5'>提出</b>大<b class='flag-5'>模型</b><b class='flag-5'>推理</b>新思路:Two-Player架構(gòu)打破自我反思瓶頸

    阿里云開(kāi)源推理模型QwQ

    近日,阿里云通義團(tuán)隊(duì)宣布推出全新AI推理模型QwQ-32B-Preview,并同步實(shí)現(xiàn)了開(kāi)源。這一舉措標(biāo)志著阿里云在AI推理領(lǐng)域邁出了重要一步。 據(jù)評(píng)測(cè)數(shù)據(jù)顯示,QwQ預(yù)覽版本已具備研究生水平的科學(xué)
    的頭像 發(fā)表于 11-29 11:30 ?937次閱讀

    使用vLLM+OpenVINO加速大語(yǔ)言模型推理

    隨著大語(yǔ)言模型的廣泛應(yīng)用,模型的計(jì)算需求大幅提升,帶來(lái)推理時(shí)延高、資源消耗大等挑戰(zhàn)
    的頭像 發(fā)表于 11-15 14:20 ?1078次閱讀
    使用vLLM+OpenVINO加速大語(yǔ)言<b class='flag-5'>模型</b><b class='flag-5'>推理</b>

    高效大模型推理綜述

    模型由于其在各種任務(wù)中的出色表現(xiàn)而引起了廣泛的關(guān)注。然而,大模型推理的大量計(jì)算和內(nèi)存需求對(duì)其在資源受限場(chǎng)景的部署提出了挑戰(zhàn)。業(yè)內(nèi)一直在努力
    的頭像 發(fā)表于 11-15 11:45 ?1187次閱讀
    高效大<b class='flag-5'>模型</b>的<b class='flag-5'>推理</b>綜述

    主流芯片架構(gòu)包括哪些類(lèi)型

    主流芯片架構(gòu)是芯片設(shè)計(jì)領(lǐng)域中的核心組成部分,它們決定了芯片的功能、性能、功耗等多個(gè)方面。當(dāng)前,全球范圍內(nèi)
    的頭像 發(fā)表于 08-22 11:08 ?2061次閱讀

    LLM大模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語(yǔ)言模型)大模型推理加速是當(dāng)前人工智能領(lǐng)域的一個(gè)研究熱點(diǎn),旨在提高模型在處理復(fù)雜任務(wù)時(shí)的效率和響應(yīng)速度。以下是對(duì)LLM大
    的頭像 發(fā)表于 07-24 11:38 ?1504次閱讀

    如何加速大語(yǔ)言模型推理

    的主要挑戰(zhàn)。本文將從多個(gè)維度深入探討如何加速大語(yǔ)言模型推理過(guò)程,以期為相關(guān)領(lǐng)域的研究者和開(kāi)發(fā)者提供參考。
    的頭像 發(fā)表于 07-04 17:32 ?872次閱讀

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的應(yīng)用

    。 關(guān)于大語(yǔ)言模型是否具備與人類(lèi)“系統(tǒng)2”相似的能力,存在廣泛的爭(zhēng)議。然而,隨著模型參數(shù)量的增加和大規(guī)模預(yù)訓(xùn)練的實(shí)施,大語(yǔ)言模型展現(xiàn)出了與人類(lèi)相似的
    發(fā)表于 05-07 17:21
    主站蜘蛛池模板: 国产精品不卡片视频免费观看 | 老师喂我吃她的奶水脱她胸罩 | 亚洲人成电影在线小说网色 | 一级做a爱免费观看视频 | 美女一区二区三区 | 一区二区影院 | 欧美日操 | 日本黄色大片免费看 | 亚洲乱强| 日韩精品另类天天更新影院 | 一级特色黄大片 | 欧美午夜性刺激在线观看免费 | 一级特黄aaa大片在线观看视频 | 欧美区在线播放 | aaaa视频 | 在线播放亚洲视频 | 亚洲黄色小说网站 | 韩国xxxxx视频在线 | 天天做天天爱天天干 | 7777sq国产精品 | 午夜高清在线观看免费6 | 久久精品国产亚洲aa | 永久黄网站色视频免费观看 | 国产精品免费视频拍拍拍 | 欧美日韩国产成人精品 | 天堂网最新版中文 | 天堂bt| 天天爽夜夜爽免费看 | 超级黄色毛片 | 玖玖草在线观看 | 在线天堂资源 | 女人被狂躁视频免费网站 | 四虎国产精品永久免费网址 | 激情在线播放免费视频高清 | 天堂电影免费在线观看 | 鲁一鲁色一色 | 四虎影院免费在线 | 亚洲一区毛片 | 97久久天天综合色天天综合色hd | 亚洲一区免费在线观看 | 久久夜色精品国产亚洲噜噜 |