在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用多個(gè)推理芯片需要仔細(xì)規(guī)劃

zhongnian ? 來(lái)源:zhongnian ? 作者:zhongnian ? 2022-07-21 10:11 ? 次閱讀

過(guò)去兩年,推理芯片業(yè)務(wù)異常忙碌。有一段時(shí)間,似乎每隔一周就有另一家公司推出一種新的更好的解決方案。盡管所有這些創(chuàng)新都很棒,但問(wèn)題是大多數(shù)公司不知道如何利用各種解決方案,因?yàn)樗麄儫o(wú)法判斷哪一個(gè)比另一個(gè)表現(xiàn)更好。由于在這個(gè)新市場(chǎng)中沒(méi)有一套既定的基準(zhǔn),他們要么必須快速掌握推理芯片的速度,要么必須相信各個(gè)供應(yīng)商提供的性能數(shù)據(jù)。

大多數(shù)供應(yīng)商都提供了某種類型的性能數(shù)據(jù),通常是任何讓它們看起來(lái)不錯(cuò)的基準(zhǔn)。一些供應(yīng)商談?wù)?TOPS 和 TOPS/Watt 時(shí)沒(méi)有指定型號(hào)、批量大小或工藝/電壓/溫度條件。其他人使用了 ResNet-50 基準(zhǔn),這是一個(gè)比大多數(shù)人需要的簡(jiǎn)單得多的模型,因此它在評(píng)估推理選項(xiàng)方面的價(jià)值值得懷疑。

從早期開始,我們已經(jīng)走了很長(zhǎng)一段路。公司已經(jīng)慢慢發(fā)現(xiàn),在衡量推理芯片的性能時(shí)真正重要的是 1) 高 MAC 利用率,2) 低功耗和 3) 你需要保持一切都很小。

我們知道如何衡量——下一步是什么?

既然我們對(duì)如何衡量一個(gè)推理芯片相對(duì)于另一個(gè)的性能有了相當(dāng)好的了解,公司現(xiàn)在正在詢問(wèn)在同一設(shè)計(jì)中同時(shí)使用多個(gè)推理芯片的優(yōu)點(diǎn)(或缺點(diǎn))是什么。簡(jiǎn)單的答案是,使用多個(gè)推理芯片,當(dāng)推理芯片設(shè)計(jì)正確時(shí),可以實(shí)現(xiàn)性能的線性增長(zhǎng)。當(dāng)我們考慮使用多個(gè)推理芯片時(shí),高速公路的類比并不遙遠(yuǎn)。公司想要單車道高速公路還是四車道高速公路的性能?

顯然,每家公司都想要一條四向高速公路,所以現(xiàn)在的問(wèn)題變成了“我們?nèi)绾卧诓辉斐山煌ê推款i的情況下交付這條四車道的高速公路?” 答案取決于選擇正確的推理芯片。為了解釋,讓我們看一個(gè)神經(jīng)網(wǎng)絡(luò)模型。

神經(jīng)網(wǎng)絡(luò)被分解成層。ResNet-50 等層有 50 層,YOLOv3 有超過(guò) 100 層,每一層都接受前一層的激活。因此,在第 N 層中,它的輸出是進(jìn)入第 N+1 層的激活。它等待該層進(jìn)入,計(jì)算完成,輸出是進(jìn)入第 n+2 層的激活。這會(huì)持續(xù)到層的長(zhǎng)度,直到你最終得到結(jié)果。請(qǐng)記住,此示例的初始輸入是圖像或模型正在處理的任何數(shù)據(jù)集。

當(dāng)多個(gè)芯片發(fā)揮作用時(shí)

現(xiàn)實(shí)情況是,如果您的芯片具有一定的性能水平,總會(huì)有客戶想要兩倍或四倍的性能。如果你分析神經(jīng)網(wǎng)絡(luò)模型,在某些情況下是可以實(shí)現(xiàn)的。您只需要查看如何在兩個(gè)芯片或四個(gè)芯片之間拆分模型。

多年來(lái),這一直是并行處理的一個(gè)問(wèn)題,因?yàn)楹茈y弄清楚如何對(duì)您正在執(zhí)行的任何處理進(jìn)行分區(qū)并確保它們?nèi)肯嗉樱皇窃谛阅芊矫姹粶p去。

與并行處理和通用計(jì)算不同,推理芯片的好處是客戶通常會(huì)提前知道他們是否要使用兩個(gè)芯片,這樣編譯器就不必在運(yùn)行時(shí)弄清楚——它是在編譯時(shí)完成的。使用神經(jīng)網(wǎng)絡(luò)模型,一切都是完全可預(yù)測(cè)的,因此我們可以分析并準(zhǔn)確確定如何拆分模型,以及它是否能在兩個(gè)芯片上運(yùn)行良好。

為了確保模型可以在兩個(gè)或更多芯片上運(yùn)行,重要的是逐層查看激活大小和 MAC 數(shù)量。通常發(fā)生的情況是,最大的激活發(fā)生在最早的層中。這意味著隨著層數(shù)的增加,激活大小會(huì)慢慢下降。

查看 MAC 的數(shù)量以及每個(gè)周期中完成的 MAC 數(shù)量也很重要。在大多數(shù)模型中,每個(gè)循環(huán)中完成的 MAC 數(shù)量通常與激活大小相關(guān)。這很重要,因?yàn)槿绻袃蓚€(gè)芯片并且想要以最大頻率運(yùn)行,則需要為每個(gè)芯片分配相同的工作負(fù)載。如果一個(gè)芯片完成模型的大部分工作,而另一個(gè)芯片只完成模型的一小部分,那么您將受到第一個(gè)芯片的吞吐量的限制。

如何在兩個(gè)芯片之間拆分模型也很重要。您需要查看 MAC 的數(shù)量,因?yàn)檫@決定了工作負(fù)載的分布。您還必須查看芯片之間傳遞的內(nèi)容。在某些時(shí)候,您需要在您傳遞的激活盡可能小的地方對(duì)模型進(jìn)行切片,以便所需的通信帶寬量和傳輸延遲最小。如果在激活非常大的點(diǎn)對(duì)模型進(jìn)行切片,激活的傳輸可能會(huì)成為限制雙芯片解決方案性能的瓶頸。

下圖顯示了 YOLOv3、Winograd、2 百萬(wàn)像素圖像的激活輸出大小和累積的 Mac 操作逐層(繪制了卷積層)。為了平衡兩個(gè)芯片之間的工作負(fù)載,該模型將減少大約 50% 的累積 MAC 操作——此時(shí)從一個(gè)芯片傳遞到另一個(gè)芯片的激活為 1MB 或 2MB。要在 4 個(gè)籌碼之間進(jìn)行拆分,削減率約為 25%、50% 和 75%;請(qǐng)注意,激活大小在開始時(shí)最大,因此 25% 的切點(diǎn)有 4 或 8MB 的激活要通過(guò)。

poYBAGLXT6aAZ_6sAAGPBlpZGUY044.png

單擊此處查看大圖
YOLOv3/Winograd/2Mpixel 圖像的激活輸出大小(藍(lán)條)和逐層累積 MAC 操作(紅線),顯示工作負(fù)載如何在多個(gè)芯片之間分配(圖片:Flex Logix)

性能工具

幸運(yùn)的是,現(xiàn)在可以使用性能工具來(lái)確保高吞吐量。事實(shí)上,模擬單個(gè)芯片性能的同一工具可以推廣到模擬兩個(gè)芯片的性能。雖然任何給定層的性能完全相同,但問(wèn)題是數(shù)據(jù)傳輸如何影響性能。建模工具需要考慮這一點(diǎn),因?yàn)槿绻璧膸挷粔颍搸拰⑾拗仆掏铝俊?/p>

如果您正在做四個(gè)芯片,您將需要更大的帶寬,因?yàn)槟P偷谝患径鹊募せ钔笥谀P秃笃诘募せ睢R虼耍顿Y的通信資源量將允許您使用流水線連接的大量芯片,但這將是所有芯片都必須承擔(dān)的間接成本,即使它們是獨(dú)立芯片。

結(jié)論

使用多個(gè)推理芯片可以顯著提高性能,但前提是如上所述正確設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)。如果我們回顧一下高速公路的類比,有很多機(jī)會(huì)通過(guò)使用錯(cuò)誤的芯片和錯(cuò)誤的神經(jīng)網(wǎng)絡(luò)模型來(lái)建立交通。如果你從正確的芯片開始,你就走在了正確的軌道上。請(qǐng)記住,最重要的是吞吐量,而不是 TOPS 或 Res-Net50 基準(zhǔn)。然后,一旦您選擇了正確的推理芯片,您就可以設(shè)計(jì)一個(gè)同樣強(qiáng)大的神經(jīng)網(wǎng)絡(luò)模型,為您的應(yīng)用需求提供最大的性能。

— Geoff Tate 是 Flex Logix 的首席執(zhí)行官

、審核編輯 黃昊宇
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 芯片
    +關(guān)注

    關(guān)注

    457

    文章

    51337

    瀏覽量

    428112
  • Mac
    Mac
    +關(guān)注

    關(guān)注

    0

    文章

    1110

    瀏覽量

    51754
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    黑芝麻智能芯片加速DeepSeek模型推理

    近日,黑芝麻智能宣布,其武當(dāng)C1200家族芯片已成功完成DeepSeek模型推理的部署,而A2000芯片也將全面支持基于DeepSeek的多模態(tài)大模型推理。這一消息標(biāo)志著黑芝麻智能在推
    的頭像 發(fā)表于 02-14 15:04 ?143次閱讀

    使用NVIDIA推理平臺(tái)提高AI推理性能

    NVIDIA推理平臺(tái)提高了 AI 推理性能,為零售、電信等行業(yè)節(jié)省了數(shù)百萬(wàn)美元。
    的頭像 發(fā)表于 02-08 09:59 ?240次閱讀
    使用NVIDIA<b class='flag-5'>推理</b>平臺(tái)提高AI<b class='flag-5'>推理</b>性能

    Neuchips展示大模型推理ASIC芯片

    。新的芯片解決方案Raptor使企業(yè)能夠以現(xiàn)有解決方案的一小部分成本部署大型語(yǔ)言模型(LLM)推理。 Neuchips?CEO Ken Lau表示:“我們很高興在CES 2024上向業(yè)界展示我們
    的頭像 發(fā)表于 01-06 17:30 ?239次閱讀

    Amazon Bedrock推出多個(gè)新模型和全新強(qiáng)大的推理和數(shù)據(jù)處理功能

    亞馬遜云科技助力客戶加速采用生成式AI 模型擴(kuò)展規(guī)模空前,并新增推理優(yōu)化工具及額外的數(shù)據(jù)功能,為客戶提供了更大的靈活性和控制力,更快構(gòu)建和部署生產(chǎn)級(jí)生成式AI ?亞馬遜云科技在2024 re
    的頭像 發(fā)表于 12-07 19:31 ?695次閱讀
    Amazon Bedrock推出<b class='flag-5'>多個(gè)</b>新模型和全新強(qiáng)大的<b class='flag-5'>推理</b>和數(shù)據(jù)處理功能

    高效大模型的推理綜述

    大模型由于其在各種任務(wù)中的出色表現(xiàn)而引起了廣泛的關(guān)注。然而,大模型推理的大量計(jì)算和內(nèi)存需求對(duì)其在資源受限場(chǎng)景的部署提出了挑戰(zhàn)。業(yè)內(nèi)一直在努力開發(fā)旨在提高大模型推理效率的技術(shù)。本文對(duì)現(xiàn)有的關(guān)于高效
    的頭像 發(fā)表于 11-15 11:45 ?645次閱讀
    高效大模型的<b class='flag-5'>推理</b>綜述

    FPGA和ASIC在大模型推理加速中的應(yīng)用

    隨著現(xiàn)在AI的快速發(fā)展,使用FPGA和ASIC進(jìn)行推理加速的研究也越來(lái)越多,從目前的市場(chǎng)來(lái)說(shuō),有些公司已經(jīng)有了專門做推理的ASIC,像Groq的LPU,專門針對(duì)大語(yǔ)言模型的推理做了優(yōu)化,因此相比GPU這種通過(guò)計(jì)算平臺(tái),功耗更低、
    的頭像 發(fā)表于 10-29 14:12 ?886次閱讀
    FPGA和ASIC在大模型<b class='flag-5'>推理</b>加速中的應(yīng)用

    AMD助力HyperAccel開發(fā)全新AI推理服務(wù)器

    提高成本效率。HyperAccel 針對(duì)新興的生成式 AI 應(yīng)用提供超級(jí)加速的芯片 IP/解決方案。HyperAccel 已經(jīng)打造出一個(gè)快速、高效且低成本的推理系統(tǒng),加速了基于轉(zhuǎn)換器的大型語(yǔ)言模型
    的頭像 發(fā)表于 09-18 09:37 ?520次閱讀
    AMD助力HyperAccel開發(fā)全新AI<b class='flag-5'>推理</b>服務(wù)器

    【飛凌嵌入式OK3576-C開發(fā)板體驗(yàn)】rkllm板端推理

    交叉編譯 在完成模型的量化構(gòu)建后,就能夠在目標(biāo)硬件平臺(tái)OK3576上實(shí)現(xiàn)模型的推理功能了。 板端推理的示例代碼位于kllm-runtime/examples/rkllm_api_demo目錄中,該
    發(fā)表于 08-31 22:45

    星凡科技獲近億元Pre-A輪融資,加速大模型推理芯片研發(fā)

    星凡星啟(成都)科技有限公司(以下簡(jiǎn)稱“星凡科技”)近日宣布成功完成近億元人民幣的Pre-A輪融資,此次融資由高捷資本攜手盛景嘉成及開普云聯(lián)合注資。這筆資金將為星凡科技在多個(gè)關(guān)鍵領(lǐng)域的發(fā)展注入強(qiáng)勁動(dòng)力,包括服務(wù)器產(chǎn)線建設(shè)、算力中心項(xiàng)目的深度布局與后期高效運(yùn)營(yíng),以及核心大模型推理
    的頭像 發(fā)表于 07-27 17:21 ?2818次閱讀

    LLM大模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語(yǔ)言模型)大模型推理加速是當(dāng)前人工智能領(lǐng)域的一個(gè)研究熱點(diǎn),旨在提高模型在處理復(fù)雜任務(wù)時(shí)的效率和響應(yīng)速度。以下是對(duì)LLM大模型推理加速關(guān)鍵技術(shù)的詳細(xì)探討,內(nèi)容將涵蓋模型壓縮、解碼方法優(yōu)化、底層優(yōu)化、分布式并行推理以及特
    的頭像 發(fā)表于 07-24 11:38 ?1100次閱讀

    如何加速大語(yǔ)言模型推理

    的主要挑戰(zhàn)。本文將從多個(gè)維度深入探討如何加速大語(yǔ)言模型的推理過(guò)程,以期為相關(guān)領(lǐng)域的研究者和開發(fā)者提供參考。
    的頭像 發(fā)表于 07-04 17:32 ?670次閱讀

    DRP芯片多個(gè)領(lǐng)域的應(yīng)用

    DRP芯片多個(gè)領(lǐng)域都有潛力應(yīng)用,尤其是在快充和處理器/DSP領(lǐng)域。 在快充領(lǐng)域,DRP芯片可用于移動(dòng)電源、戶外電源、HUB等產(chǎn)品中。它們可以支持多個(gè)PDO(Power Deliver
    的頭像 發(fā)表于 04-13 20:23 ?947次閱讀

    深度探討VLMs距離視覺(jué)演繹推理還有多遠(yuǎn)?

    通用大型語(yǔ)言模型(LLM)推理基準(zhǔn):研究者們介紹了多種基于文本的推理任務(wù)和基準(zhǔn),用于評(píng)估LLMs在不同領(lǐng)域(如常識(shí)、數(shù)學(xué)推理、常識(shí)推理、事實(shí)推理
    發(fā)表于 03-19 14:32 ?391次閱讀
    深度探討VLMs距離視覺(jué)演繹<b class='flag-5'>推理</b>還有多遠(yuǎn)?

    Groq LPU崛起,AI芯片主戰(zhàn)場(chǎng)從訓(xùn)練轉(zhuǎn)向推理

    人工智能推理的重要性日益凸顯,高效運(yùn)行端側(cè)大模型及AI軟件背后的核心技術(shù)正是推理。不久的未來(lái),全球芯片制造商的主要市場(chǎng)將全面轉(zhuǎn)向人工智能推理領(lǐng)域。
    的頭像 發(fā)表于 02-29 16:46 ?1902次閱讀

    Groq推出大模型推理芯片 超越了傳統(tǒng)GPU和谷歌TPU

    Groq推出了大模型推理芯片,以每秒500tokens的速度引起轟動(dòng),超越了傳統(tǒng)GPU和谷歌TPU。
    的頭像 發(fā)表于 02-26 10:24 ?1262次閱讀
    Groq推出大模型<b class='flag-5'>推理</b><b class='flag-5'>芯片</b> 超越了傳統(tǒng)GPU和谷歌TPU
    主站蜘蛛池模板: 成 黄 色 激 情视频网站 | 午夜视频你懂的 | 1区2区3区4区 | 天天色天天摸 | 亚洲日本欧美日韩高观看 | 亚洲一区二区影视 | 国内精品第一页 | 中文字幕成人乱码在线电影 | 我要色综合网 | 欧美色图亚洲 | 欧美性天天影院 | 五月婷婷丁香花 | 午夜国产精品理论片久久影院 | 亚洲国产成人在人网站天堂 | 特黄黄三级视频在线观看 | 成年1314在线观看 | 欧美激情第一欧美在线 | 午夜手机福利 | 色婷五月| 天天操天天看 | cijilu刺激 国产免费的 | 午夜影视免费观看 | 农村三级毛片 | 视频免费观看视频 | 乱妇伦小说 | bt天堂资源在线官网bt | www.91久久 | 在线观看免费午夜大片 | h在线观看视频免费网站 | 看黄网站在线观看 | xxxx日本69护士 | 免费人成在线观看网站品爱网日本 | 国产福利毛片 | 色多多最新地址福利地址 | 国产天天射 | 亚洲一区在线播放 | 男男污肉高h坐便器调教 | 日韩精品在线一区二区 | 欧美午夜性刺激在线观看免费 | 日本一区二区三区四区不卡 | 狠狠躁夜夜躁人人躁婷婷视频 |