91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Nvidia 通過開源庫提升 LLM 推理性能

科技綠洲 ? 來源:eetimes ? 作者:eetimes ? 2023-10-23 16:10 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

加利福尼亞州圣克拉拉——Nvidia通過一個(gè)名為TensorRT LLM的新開源軟件庫,將其H100、A100和L4 GPU的大型語言模型(LLM)推理性能提高了一倍。

正如對相同硬件一輪又一輪改進(jìn)的基準(zhǔn)測試結(jié)果所證明的那樣,在從專用人工智能芯片中擠出盡可能好的性能時(shí),軟件往往與硬件一樣重要。

“我們所做的很大一部分是硬件和軟件的結(jié)合,如今英偉達(dá)的軟件工程師比硬件工程師多,”英偉達(dá)超大規(guī)模和HPC計(jì)算業(yè)務(wù)副總裁兼總經(jīng)理Ian Buck告訴《EE時(shí)報(bào)》。“這是回到最初的CUDA的決定的一部分,也是交付不僅是一個(gè)帶有指令集的芯片,而且是一個(gè)完整的堆棧以滿足開發(fā)者需求的動(dòng)機(jī)。

他說:“這提供了一個(gè)在各個(gè)層面進(jìn)行創(chuàng)新的機(jī)會(huì):改變硬件架構(gòu)、改變指令集、改變編譯器、改變驅(qū)動(dòng)程序、改變工具、庫等等,這樣我們就可以推動(dòng)整個(gè)平臺(tái)向前發(fā)展。”。“在過去20年的加速計(jì)算中,這種情況已經(jīng)多次出現(xiàn),人工智能推理也是如此。”

TensorRT-LLM是Nvidia原始深度學(xué)習(xí)軟件庫的演變,對LLM推理進(jìn)行了優(yōu)化。它旨在支持 H100,但也可以應(yīng)用于 A100 和 L4 部署。

“[在TensorRT-LLM中,我們]確保我們?yōu)榇笮驼Z言模型提供最佳的張量核心優(yōu)化,”Buck說。“這允許人們采用任何大型語言模型并通過TensorRT-LLM傳遞,以獲得Hopper的變壓器引擎的好處,該引擎使Hopper的FP8計(jì)算能力成為可能。而且在生產(chǎn)工作流程中不會(huì)有任何準(zhǔn)確性損失。

Nvidia 的 Hopper 架構(gòu)引入了變壓器引擎,這是一個(gè)軟件庫,可智能地管理訓(xùn)練和推理工作負(fù)載的精度,以實(shí)現(xiàn)最佳性能。Buck說,變壓器引擎需要對所涉及的數(shù)學(xué),統(tǒng)計(jì)數(shù)據(jù)和數(shù)據(jù)有深入的了解,并在Nvidia的編譯器上進(jìn)行大量工作。它有助于在模型投入生產(chǎn)后保持模型的預(yù)測準(zhǔn)確性,這可能是一個(gè)挑戰(zhàn)。

“你可以很容易地將32位或16位計(jì)算塞進(jìn)FPGA中,但你可能會(huì)得到錯(cuò)誤的答案,因?yàn)樗鼪]有你想要的生產(chǎn)級(jí)精度,”巴克說。“深思熟慮和謹(jǐn)慎地做到這一點(diǎn),保持規(guī)模和偏差,在某些情況下將計(jì)算保持在只有8位的范圍內(nèi) - 為模型的某些部分保留FP16 - 這是Nvidia已經(jīng)努力了一段時(shí)間的事情。

TensorRT-LLM還包括一個(gè)稱為動(dòng)態(tài)批處理的新功能。

Buck解釋說,LLM工作負(fù)載,甚至是同一模型的推理工作負(fù)載,都是多種多樣的。LLM從情緒分析等更簡單的用例開始,但今天的LLM可能正在回答問題,閱讀長文本并總結(jié)它們,或者為電子郵件,文章,演示文稿等生成長文本或短文本。為LLM推理服務(wù)的數(shù)據(jù)中心也可以為許多不同的用戶提供許多不同的服務(wù)。

與現(xiàn)有的AI工作負(fù)載相比,現(xiàn)有的AI工作負(fù)載在大小上更有可能相似,因此易于批處理,Buck表示,針對同一模型的LLM查詢在大小方面可能會(huì)相差幾個(gè)數(shù)量級(jí),從需要幾毫秒才能完成的查詢到需要幾秒鐘的查詢。模型也可以堆疊,使事情變得更加復(fù)雜。

“我們的標(biāo)準(zhǔn)批處理方法總是等待最長的查詢完成,”他說。“圖像查詢大致花費(fèi)相同的時(shí)間——從效率的角度來看,這不是問題,而且查詢可以填充,所以沒什么大不了的。

借助新的動(dòng)態(tài)批處理功能,查詢完成后,查詢可以停用,軟件可以插入另一個(gè)查詢,而較長的查詢?nèi)栽谶M(jìn)行中。這有助于提高具有不同查詢長度的 LLM 的 GPU 利用率。

“坦率地說,結(jié)果甚至讓我感到驚訝,”巴克說。“它使Hopper的性能翻了一番。Hopper 是一個(gè)非常強(qiáng)大的 GPU,它可以在同一個(gè) GPU 中并行處理大量查詢,但如果沒有動(dòng)態(tài)批處理,如果你給它多樣化的查詢,它會(huì)等待最長的查詢,而不會(huì)被充分利用。

TensorRT-LLM是開源的,以及Nvidia的所有LLM工作,包括許多LLM模型,如GPT,Bloom和Falcon,這些模型已經(jīng)通過內(nèi)核融合,更快的注意力,多頭注意力等技術(shù)進(jìn)行了優(yōu)化。所有這些操作的內(nèi)核都作為TensorRT-LLM的一部分開源。

“這使得對性能感興趣的研究人員有一個(gè)起點(diǎn),使其更快,”巴克說。“我們的客戶和用戶很欣賞,如果他們有一個(gè)想要部署的特定想法,他們可以針對他們的用例進(jìn)一步優(yōu)化一些東西。

創(chuàng)新來自學(xué)術(shù)界,也來自Meta、Microsoft和谷歌等公司。雖然 Nvidia 與他們合作優(yōu)化推理,雖然優(yōu)化可能會(huì)成為學(xué)術(shù)論文,但“世界沒有一個(gè)好地方去獲得這些優(yōu)化,而且 Nvidia 工程師所做的工作沒有得到一個(gè)可以幫助世界其他地方的地方分享,“巴克說。

Buck補(bǔ)充說,TensorRT-LLM的性能提升在下一輪MLPerf推理分?jǐn)?shù)中應(yīng)該是顯而易見的,該分?jǐn)?shù)將于明年春天到期。

審核編輯:彭菁

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5324

    瀏覽量

    106629
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    3754

    瀏覽量

    43965
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    563

    瀏覽量

    10833
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    328

    瀏覽量

    887
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    NVIDIA擴(kuò)大AI推理性能領(lǐng)先優(yōu)勢,首次在Arm服務(wù)器上取得佳績

    最新MLPerf基準(zhǔn)測試表明,NVIDIA已將其在AI推理性能和能效方面的高標(biāo)準(zhǔn)擴(kuò)展到Arm以及x86計(jì)算機(jī)。
    發(fā)表于 09-23 14:18 ?2752次閱讀
    <b class='flag-5'>NVIDIA</b>擴(kuò)大AI<b class='flag-5'>推理性能</b>領(lǐng)先優(yōu)勢,首次在Arm服務(wù)器上取得佳績

    Arm KleidiAI助力提升PyTorch上LLM推理性能

    熱門的深度學(xué)習(xí)框架尤為突出,許多企業(yè)均會(huì)選擇其作為開發(fā) AI 應(yīng)用的通過部署 Arm Kleidi 技術(shù),Arm 正在努力優(yōu)化 PyTorch,以加速在基于 Arm 架構(gòu)的處理器上運(yùn)行 LLM
    的頭像 發(fā)表于 12-03 17:05 ?1552次閱讀
    Arm KleidiAI助力<b class='flag-5'>提升</b>PyTorch上<b class='flag-5'>LLM</b><b class='flag-5'>推理性能</b>

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開源,可幫助開發(fā)
    的頭像 發(fā)表于 07-04 14:38 ?753次閱讀

    NVIDIA打破AI推理性能記錄

     NVIDIA憑借A100進(jìn)一步擴(kuò)大了在MLPerf基準(zhǔn)測試中的領(lǐng)先優(yōu)勢,實(shí)現(xiàn)了比CPU快237倍的AI推理性能,助力企業(yè)將AI研究轉(zhuǎn)化為生產(chǎn)力。
    發(fā)表于 10-22 14:07 ?933次閱讀

    NVIDIA 在首個(gè)AI推理基準(zhǔn)測試中大放異彩

    的BERT、GNMT 和Jasper 等AI模型開源優(yōu)化幫助開發(fā)者實(shí)現(xiàn)頂尖推理性能NVIDIA的客戶和合作伙伴中包括有會(huì)話式AI領(lǐng)域的一流公司,比如Kensho、微軟、Nuance、Optum等。最后要
    發(fā)表于 11-08 19:44

    求助,為什么將不同的權(quán)重應(yīng)用于模型會(huì)影響推理性能

    生成兩個(gè) IR文件(相同的 .xml 文件,但不同的 .bin 文件) 具有不同重量的類似模型,以不同的 fps (27fps 和 6fps) 運(yùn)行 更多樣化的權(quán)重是否會(huì)影響 Myriad X 上的推理性能
    發(fā)表于 08-15 07:00

    如何提高YOLOv4模型的推理性能

    使用 PyTorch 對具有非方形圖像的 YOLOv4 模型進(jìn)行了訓(xùn)練。 將 權(quán)重轉(zhuǎn)換為 ONNX 文件,然后轉(zhuǎn)換為中間表示 (IR)。 無法確定如何獲得更好的推理性能
    發(fā)表于 08-15 06:58

    NVIDIA發(fā)布最新Orin芯片提升邊緣AI標(biāo)桿

    在首次參加行業(yè) MLPerf 基準(zhǔn)測試時(shí),基于 NVIDIA Ampere 架構(gòu)的低功耗系統(tǒng)級(jí)芯片 NVIDIA Orin 就創(chuàng)造了新的AI推理性能紀(jì)錄,并在邊緣提升每個(gè)加速器的
    的頭像 發(fā)表于 04-08 10:14 ?5026次閱讀
    <b class='flag-5'>NVIDIA</b>發(fā)布最新Orin芯片<b class='flag-5'>提升</b>邊緣AI標(biāo)桿

    現(xiàn)已公開發(fā)布!歡迎使用 NVIDIA TensorRT-LLM 優(yōu)化大語言模型推理

    NVIDIA 于 2023 年 10 月 19 日公開發(fā)布 TensorRT-LLM ,可在 NVIDIA GPU 上加速和優(yōu)化最新的大語言模型(Large Language Models)的
    的頭像 發(fā)表于 10-27 20:05 ?1551次閱讀
    現(xiàn)已公開發(fā)布!歡迎使用 <b class='flag-5'>NVIDIA</b> TensorRT-<b class='flag-5'>LLM</b> 優(yōu)化大語言模型<b class='flag-5'>推理</b>

    用上這個(gè)工具包,大模型推理性能加速達(dá)40倍

    作者: 英特爾公司 沈海豪、羅嶼、孟恒宇、董波、林俊 編者按: 只需不到9行代碼, 就能在CPU上實(shí)現(xiàn)出色的LLM推理性能。 英特爾 ?Extension for Transformer 創(chuàng)新
    的頭像 發(fā)表于 12-01 20:40 ?1695次閱讀
    用上這個(gè)工具包,大模型<b class='flag-5'>推理性能</b>加速達(dá)40倍

    自然語言處理應(yīng)用LLM推理優(yōu)化綜述

    當(dāng)前,業(yè)界在將傳統(tǒng)優(yōu)化技術(shù)引入 LLM 推理的同時(shí),同時(shí)也在探索從大模型自回歸解碼特點(diǎn)出發(fā),通過調(diào)整推理過程和引入新的模型結(jié)構(gòu)來進(jìn)一步提升
    發(fā)表于 04-10 11:48 ?1003次閱讀
    自然語言處理應(yīng)用<b class='flag-5'>LLM</b><b class='flag-5'>推理</b>優(yōu)化綜述

    魔搭社區(qū)借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社區(qū)是中國最具影響力的模型開源社區(qū),致力給開發(fā)者提供模型即服務(wù)的體驗(yàn)。魔搭社區(qū)利用NVIDIA TensorRT-LLM,大大提高了大語言模型的推理性能,方便了模型應(yīng)用部署,提高
    的頭像 發(fā)表于 08-23 15:48 ?1183次閱讀

    開箱即用,AISBench測試展示英特爾至強(qiáng)處理器的卓越推理性能

    近期,第五代英特爾?至強(qiáng)?可擴(kuò)展處理器通過了中國電子技術(shù)標(biāo)準(zhǔn)化研究院組織的人工智能服務(wù)器系統(tǒng)性能測試(AISBench)。英特爾成為首批通過AISBench大語言模型(LLM
    的頭像 發(fā)表于 09-06 15:33 ?889次閱讀
    開箱即用,AISBench測試展示英特爾至強(qiáng)處理器的卓越<b class='flag-5'>推理性能</b>

    解鎖NVIDIA TensorRT-LLM的卓越性能

    Batching、Paged KV Caching、量化技術(shù) (FP8、INT4 AWQ、INT8 SmoothQuant 等) 以及更多功能,確保您的 NVIDIA GPU 能發(fā)揮出卓越的推理性能
    的頭像 發(fā)表于 12-17 17:47 ?941次閱讀

    使用NVIDIA推理平臺(tái)提高AI推理性能

    NVIDIA推理平臺(tái)提高了 AI 推理性能,為零售、電信等行業(yè)節(jié)省了數(shù)百萬美元。
    的頭像 發(fā)表于 02-08 09:59 ?774次閱讀
    使用<b class='flag-5'>NVIDIA</b><b class='flag-5'>推理</b>平臺(tái)提高AI<b class='flag-5'>推理性能</b>
    主站蜘蛛池模板: 黄在线看 | 日本理论在线观看被窝网 | 韩国美女丝袜一区二区 | 又长又大又粗又硬3p免费视 | 天天干天天操天天操 | 特级毛片免费视频观看 | 青草青草视频2免费观看 | 综合亚洲色图 | 深点再深一点好爽好多水 | 日韩毛片在线看 | 夜夜爽天天狠狠九月婷婷 | 美女在线看永久免费网址 | 中国理论片 | 四虎影院黄色片 | 精品国产理论在线观看不卡 | 68日本 xxxxxxxxx | 视频亚洲一区 | 亚洲一一在线 | 97av在线播放 | 国产成人精品男人的天堂538 | 色五月婷婷成人网 | 欧美成人生活片 | 国产拍拍 | 亚洲资源最新版在线观看 | 日本边添边爱边摸边做边爱 | 91大神精品 | 色成人免费网站 | 国产播放啪视频免费视频 | 夜夜操操操| 日韩精品无码一区二区三区 | bt天堂在线www种子搜索 | 久久怡红院国产精品 | 日韩一区二区在线观看 | 免费观看视频 | 边做边爱在线观看视频免费 | 亚洲欧美色中文字幕 | 黑人40厘米全进去xxxx猛交 | 天天看天天摸天天操 | 高清国产美女在线观看 | a级精品九九九大片免费看 a级毛毛片看久久 | 欧美成人午夜 |