在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AMD助力HyperAccel開(kāi)發(fā)全新AI推理服務(wù)器

Xilinx賽靈思官微 ? 來(lái)源:Xilinx賽靈思官微 ? 2024-09-18 09:37 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

HyperAccel 是一家成立于 2023 年 1 月的韓國(guó)初創(chuàng)企業(yè),致力于開(kāi)發(fā) AI 推理專(zhuān)用型半導(dǎo)體器件和硬件,最大限度提升推理工作負(fù)載的存儲(chǔ)器帶寬使用,并通過(guò)將此解決方案應(yīng)用于大型語(yǔ)言模型來(lái)提高成本效率。HyperAccel 針對(duì)新興的生成式 AI 應(yīng)用提供超級(jí)加速的芯片 IP/解決方案。HyperAccel 已經(jīng)打造出一個(gè)快速、高效且低成本的推理系統(tǒng),加速了基于轉(zhuǎn)換器的大型語(yǔ)言模型( LLM )的推理,此類(lèi)模型通常具有數(shù)十億個(gè)參數(shù),例如 OpenAI 的 ChatGPT 和 Meta 的 Llama 3 等 Llama LLM。其 AI 芯片名為時(shí)延處理單元( LPU ),是專(zhuān)門(mén)用于 LLM 端到端推理的硬件加速器。

項(xiàng)目挑戰(zhàn)

隨著 LLM 應(yīng)用的擴(kuò)展,對(duì)高效、快速和具成本效益的推理解決方案的需求不斷上升。對(duì)于云服務(wù)提供商而言,快速且成本效益高的推理硬件對(duì)于托管高性能的生成式 AI 應(yīng)用并降低總擁有成本( TCO )至關(guān)重要。對(duì)于 AI 企業(yè)來(lái)說(shuō),一個(gè)直觀的軟件堆棧平臺(tái)是實(shí)現(xiàn)其應(yīng)用或模型無(wú)縫部署的必備條件。對(duì)于服務(wù)業(yè)務(wù),提供全面的端到端解決方案也是必要的,有利于將最先進(jìn)的 AI 技術(shù)集成到更有效和先進(jìn)的服務(wù)中。

解決方案

HyperAccel 提出通過(guò)開(kāi)發(fā)名為“Orion”的服務(wù)器來(lái)解決成本和性能問(wèn)題,該服務(wù)器搭載了一個(gè)為 LLM 推理量身定制的專(zhuān)用處理器,基于多個(gè)高性能 AMD FPGA部署。Orion 充分利用每個(gè) FPGA 的存儲(chǔ)器帶寬和硬件資源以獲得最高水平的性能。這種可擴(kuò)展的架構(gòu)支持最新的 LLM,此類(lèi)模型通常包含數(shù)十億個(gè)參數(shù)。

Orion 擁有 16 個(gè)時(shí)延處理單元( LPU ),它們分布在兩個(gè) 2U 機(jī)架中,提供總共 7.36TB/s 的 HBM 帶寬和 14.4 萬(wàn)個(gè) DSP。LPU 能加速內(nèi)存和計(jì)算都非常密集的超大規(guī)模生成式 AI 工作負(fù)載。Orion 及其 256GB 的 HBM 容量支持多達(dá)千億參數(shù)的最先進(jìn) LLM。上圖展示了兩個(gè) 2U 機(jī)箱之一,配有 8 個(gè) LPU。

下圖顯示了 LPU 架構(gòu),其中矢量執(zhí)行引擎由 AMD Alveo U55C 高性能計(jì)算卡支持。Alveo U55C 卡具有高帶寬存儲(chǔ)器( HBM2 ),解決了提供低時(shí)延AI 的最關(guān)鍵性能瓶頸——存儲(chǔ)器帶寬。此外,它們能夠?qū)?200 Gbps的高速網(wǎng)絡(luò)集成到單個(gè)小型板卡中,并且經(jīng)過(guò)精心設(shè)計(jì)可在任何服務(wù)器中部署。

反過(guò)來(lái),每個(gè) Alveo 加速卡都由 FPGA 架構(gòu)驅(qū)動(dòng)。鑒于 FPGA 的大規(guī)模硬件并行性和靈活應(yīng)變的存儲(chǔ)器層次結(jié)構(gòu),F(xiàn)PGA 固有的低時(shí)延特性非常適合 LLM 所需的實(shí)時(shí) AI 服務(wù)。Alveo 卡采用了強(qiáng)大的 Virtex XCU55P UltraScale+ FPGA,可提供高達(dá) 38 TOPS 的 DSP 計(jì)算性能,有助于 AI 推理優(yōu)化,包括用于定點(diǎn)與浮點(diǎn)計(jì)算的 INT8。這款 FPGA 能夠根據(jù)客戶(hù)反饋調(diào)整其處理器( LPU )的架構(gòu),例如,根據(jù)要求在Llama模型中實(shí)現(xiàn)一些非標(biāo)準(zhǔn)的處理,進(jìn)而提供靈活的解決方案,能夠適應(yīng)不斷變化的市場(chǎng)和 LLM 參數(shù)條件。

wKgaombqLxCAdBaIAAGAxEvslZA335.png

設(shè)計(jì)成效

Orion 的高性能和可擴(kuò)展性是通過(guò) LPU 實(shí)現(xiàn)的,由 AMD Alveo 加速卡和相關(guān)的 FPGA 以及HyperAccel 的可擴(kuò)展同步鏈路( ESL )技術(shù)提供支持。這些技術(shù)最大限度提升了 P2P 傳輸中的存儲(chǔ)器帶寬使用,有利于靈活處理,同時(shí)消除了 P2P 計(jì)算的同步開(kāi)銷(xiāo) ESL 屬于為 LLM 推理中的數(shù)據(jù)傳輸優(yōu)化的通信鏈路。值得注意的是,Orion 在支持標(biāo)準(zhǔn) FP16 數(shù)據(jù)精度的硬件上保持了卓越的準(zhǔn)確性。

HyperAccel Orion

的性能

針對(duì)時(shí)延進(jìn)行優(yōu)化的 HyperAccel Orion 與基于轉(zhuǎn)換器的 LLM(如 GPT、Llama 和 OPT)無(wú)縫集成,能夠在 1.3B 模型上每秒生成超過(guò) 520 個(gè)令牌,在 7B 模型上每秒生成 175 個(gè)令牌。除了卓越的性能外,Orion 還展示了出色的能源效率,在 66B 模型上生成單個(gè)令牌只需 24 毫秒,而功耗僅為 600W。

wKgaombqLxWAduahAADVjgfBfyc650.png

HyperAccel LPU 的性能(來(lái)源:https://www.hyperaccel.ai)

HyperAccel Orion

—— 工作負(fù)載多樣性

Orion 提供端到端的解決方案服務(wù),可作為云端服務(wù)部署。對(duì)于擁有專(zhuān)有 LLM 的AI 企業(yè)或存在內(nèi)部數(shù)據(jù)隱私與安全需求的專(zhuān)業(yè)部門(mén),Orion 也能夠以本地解決方案的形式進(jìn)行安裝。Orion 能夠處理以下工作負(fù)載/應(yīng)用:

客戶(hù)服務(wù):通過(guò)虛擬聊天機(jī)器人和虛擬助手實(shí)時(shí)處理查詢(xún),因此人工客服將有時(shí)間處理更復(fù)雜的問(wèn)題。

人機(jī)界面:在自助服務(wù)終端、機(jī)器人和其它設(shè)備中支持與語(yǔ)言相關(guān)的功能,以增強(qiáng)客戶(hù)互動(dòng)體驗(yàn)。

文本生成:協(xié)助生產(chǎn)、總結(jié)和精煉復(fù)雜的文本內(nèi)容,為用戶(hù)提供便利。

語(yǔ)言翻譯:翻譯客戶(hù)查詢(xún)和回復(fù)信息,打破語(yǔ)言障礙,擴(kuò)大企業(yè)的全球影響力。

問(wèn)答:根據(jù)大量數(shù)據(jù)以及此前的互動(dòng)和偏好記錄,定制針對(duì)個(gè)別客戶(hù)的回復(fù),以提高客戶(hù)滿意度。

進(jìn)一步了解AMD Virtex UltraScale+ FPGA和Alveo U55C 加速卡,請(qǐng)?jiān)L問(wèn)產(chǎn)品專(zhuān)區(qū)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • FPGA
    +關(guān)注

    關(guān)注

    1644

    文章

    22007

    瀏覽量

    616384
  • amd
    amd
    +關(guān)注

    關(guān)注

    25

    文章

    5577

    瀏覽量

    136122
  • 服務(wù)器
    +關(guān)注

    關(guān)注

    13

    文章

    9749

    瀏覽量

    87548
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    34765

    瀏覽量

    276936

原文標(biāo)題:HyperAccel 借助 AMD 加速卡與 FPGA 打造全新 AI 推理服務(wù)器

文章出處:【微信號(hào):賽靈思,微信公眾號(hào):Xilinx賽靈思官微】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    ai服務(wù)器是什么?與普通服務(wù)器有什么區(qū)別

    AI服務(wù)器并非簡(jiǎn)單的硬件堆砌,而是專(zhuān)門(mén)為人工智能任務(wù)設(shè)計(jì)的高性能計(jì)算系統(tǒng)。其核心目標(biāo)是高效處理海量數(shù)據(jù)并行計(jì)算(如矩陣乘法、模型推理),并針對(duì)AI工作負(fù)載(如深度學(xué)習(xí)訓(xùn)練、大模型
    的頭像 發(fā)表于 06-24 16:39 ?98次閱讀

    RAKsmart服務(wù)器如何助力企業(yè)破解AI轉(zhuǎn)型的難題

    當(dāng)今,企業(yè)AI轉(zhuǎn)型已成為提升競(jìng)爭(zhēng)力的核心戰(zhàn)略。然而,算力不足、成本失控、部署復(fù)雜等問(wèn)題卻成為橫亙?cè)谵D(zhuǎn)型路上的“三座大山”。面對(duì)這一挑戰(zhàn),RAKsmart服務(wù)器憑借其技術(shù)創(chuàng)新與全球化資源整合能力,為企業(yè)提供了一套從底層硬件到上層應(yīng)用的全棧解決方案,
    的頭像 發(fā)表于 05-27 10:00 ?119次閱讀

    基于RAKsmart云服務(wù)器AI大模型實(shí)時(shí)推理方案設(shè)計(jì)

    面對(duì)高并發(fā)請(qǐng)求、嚴(yán)格的響應(yīng)延遲要求及波動(dòng)的業(yè)務(wù)負(fù)載,傳統(tǒng)本地化部署的算力瓶頸愈發(fā)顯著。RAKsmart云服務(wù)器憑借其彈性計(jì)算資源池、分布式網(wǎng)絡(luò)架構(gòu)與全棧AI加速能力,為AI大模型實(shí)時(shí)推理
    的頭像 發(fā)表于 05-13 10:33 ?193次閱讀

    RAKsmart服務(wù)器如何賦能AI開(kāi)發(fā)與部署

    AI開(kāi)發(fā)與部署的復(fù)雜性不僅體現(xiàn)在算法設(shè)計(jì)層面,更依賴(lài)于底層基礎(chǔ)設(shè)施的支撐能力。RAKsmart服務(wù)器憑借其高性能硬件架構(gòu)、靈活的資源調(diào)度能力以及面向AI場(chǎng)景的深度優(yōu)化,正在成為企業(yè)突破
    的頭像 發(fā)表于 04-30 09:22 ?223次閱讀

    AI 推理服務(wù)器都有什么?2025年服務(wù)器品牌排行TOP10與選購(gòu)技巧

    根據(jù)行業(yè)數(shù)據(jù),AI推理服務(wù)器的性能差異可以達(dá)到10倍以上。比如,用普通服務(wù)器跑一個(gè)700億參數(shù)的大模型,可能需要30秒才能出結(jié)果,而用頂級(jí)服務(wù)器
    的頭像 發(fā)表于 04-09 11:06 ?926次閱讀
    <b class='flag-5'>AI</b> <b class='flag-5'>推理</b><b class='flag-5'>服務(wù)器</b>都有什么?2025年<b class='flag-5'>服務(wù)器</b>品牌排行TOP10與選購(gòu)技巧

    RAKsmart服務(wù)器如何重塑AI高并發(fā)算力格局

    AI大模型參數(shù)量突破萬(wàn)億級(jí)、實(shí)時(shí)推理需求激增的當(dāng)下,傳統(tǒng)服務(wù)器架構(gòu)的并發(fā)處理能力已逼近物理極限。RAKsmart通過(guò)“硬件重構(gòu)+軟件定義”的雙引擎創(chuàng)新,推出新一代AI
    的頭像 發(fā)表于 04-03 10:37 ?281次閱讀

    國(guó)產(chǎn)推理服務(wù)器如何選擇?深度解析選型指南與華頡科技實(shí)戰(zhàn)案例

    人工智能技術(shù)的爆發(fā)催生了對(duì)推理算力的迫切需求,而進(jìn)口服務(wù)器的高成本與技術(shù)依賴(lài)性,推動(dòng)了國(guó)產(chǎn)推理服務(wù)器的快速發(fā)展。據(jù)IDC預(yù)測(cè),到2025年,中國(guó)AI
    的頭像 發(fā)表于 03-24 17:11 ?428次閱讀
    國(guó)產(chǎn)<b class='flag-5'>推理</b><b class='flag-5'>服務(wù)器</b>如何選擇?深度解析選型指南與華頡科技實(shí)戰(zhàn)案例

    NVIDIA 推出開(kāi)放推理 AI 模型系列,助力開(kāi)發(fā)者和企業(yè)構(gòu)建代理式 AI 平臺(tái)

    月 18 日 —— ?NVIDIA 今日發(fā)布具有推理功能的開(kāi)源 Llama Nemotron 模型系列,旨在為開(kāi)發(fā)者和企業(yè)提供業(yè)務(wù)就緒型基礎(chǔ),助力構(gòu)建能夠獨(dú)立工作或以團(tuán)隊(duì)形式完成復(fù)雜任務(wù)的高級(jí)
    發(fā)表于 03-19 09:31 ?222次閱讀
    NVIDIA 推出開(kāi)放<b class='flag-5'>推理</b> <b class='flag-5'>AI</b> 模型系列,<b class='flag-5'>助力</b><b class='flag-5'>開(kāi)發(fā)</b>者和企業(yè)構(gòu)建代理式 <b class='flag-5'>AI</b> 平臺(tái)

    聯(lián)想發(fā)布基于第五代AMD EPYC處理服務(wù)器產(chǎn)品

    系列服務(wù)器產(chǎn)品家族以及一款全新ThinkSystem AMD塔式服務(wù)器,雙方共同攜手加速中國(guó) AI算力基礎(chǔ)設(shè)施的高速發(fā)展,滿足千行萬(wàn)業(yè)智能化
    的頭像 發(fā)表于 12-16 16:23 ?844次閱讀

    什么是AI服務(wù)器AI服務(wù)器的優(yōu)勢(shì)是什么?

    AI服務(wù)器是一種專(zhuān)門(mén)為人工智能應(yīng)用設(shè)計(jì)的服務(wù)器,它采用異構(gòu)形式的硬件架構(gòu),通常搭載GPU、FPGA、ASIC等加速芯片,利用CPU與加速芯片的組合來(lái)滿足高吞吐量互聯(lián)的需求,為自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、機(jī)器學(xué)習(xí)等人工智能應(yīng)用場(chǎng)景提
    的頭像 發(fā)表于 09-21 11:43 ?1946次閱讀

    AI服務(wù)器:開(kāi)啟智能計(jì)算新時(shí)代

    一、AI服務(wù)器的定義與特點(diǎn) AI服務(wù)器的定義 AI服務(wù)器是一種基于云計(jì)算技術(shù),專(zhuān)為處理人工
    的頭像 發(fā)表于 08-09 16:08 ?1600次閱讀

    英偉達(dá)推出全新NVIDIA AI Foundry服務(wù)和NVIDIA NIM推理服務(wù)

    NVIDIA 宣布推出全新 NVIDIA AI Foundry 服務(wù)和 NVIDIA NIM 推理服務(wù),與同樣剛推出的 Llama 3.1
    的頭像 發(fā)表于 07-25 09:48 ?1038次閱讀

    AI服務(wù)器的特點(diǎn)和關(guān)鍵技術(shù)

    AI服務(wù)器,即人工智能服務(wù)器,是一種專(zhuān)門(mén)設(shè)計(jì)用于運(yùn)行和加速人工智能(AI)算法與模型的硬件設(shè)備。隨著人工智能技術(shù)的快速發(fā)展和普及,AI
    的頭像 發(fā)表于 07-17 16:34 ?2955次閱讀

    ai服務(wù)器是什么架構(gòu)類(lèi)型

    AI服務(wù)器,即人工智能服務(wù)器,是專(zhuān)門(mén)為人工智能應(yīng)用設(shè)計(jì)的高性能計(jì)算服務(wù)器AI服務(wù)器的架構(gòu)類(lèi)型有
    的頭像 發(fā)表于 07-02 09:51 ?1841次閱讀

    ai服務(wù)器和通用服務(wù)器的區(qū)別在哪

    注重穩(wěn)定性和可靠性,通常采用較為穩(wěn)定的硬件配置。 1.1 CPU AI服務(wù)器通常采用高性能的CPU,如Intel Xeon或AMD EPYC等。這些CPU具有更多的核心和更高的主頻,可以提供更高的計(jì)算能力。而通用
    的頭像 發(fā)表于 07-02 09:46 ?1854次閱讀
    主站蜘蛛池模板: 亚洲日本色图 | 日本在线视频二区 | 看黄视频免费 | 亚洲成人7777| 青草网址| 天天天综合网 | 成人区精品一区二区毛片不卡 | 免费观看激色视频网站bd | 人人搞人人干 | 日韩在线视频一区 | 欧美777 | 五月婷婷丁香综合网 | 九九九精品视频免费 | 欧美日韩亚洲国内综合网俺 | 久久www免费人成看片色多多 | 我要看18毛片 | 天天干夜夜夜 | 激情五月婷婷综合网 | 欧美高清另类 | a天堂资源在线观看 | 轻点灬大ji巴太粗太长了啊h | 天天躁夜夜躁狠狠躁2024 | 色天天综合色天天碰 | 伊人涩 | 五月花综合 | 97capcom超频在线 | 国产网站在线免费观看 | 日本三级最新中文字幕电影 | 午夜国产精品视频 | 高清成年美女xx免费网站黄 | 韩国三级hd中文字幕好大 | 欧美做a欧美 | 国产美女叼嘿视频免费看 | 亚洲人成电影院 | 婷婷激情小说网 | 天天做.天天爱.天天综合网 | 精品视频网站 | 国模私拍视频 | 福利看片| 色天使色婷婷在线影院亚洲 | 91国在线啪精品一区 |