91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

使用NVIDIA Triton解決人工智能推斷挑戰(zhàn)

星星科技指導員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-10-11 14:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本節(jié)討論了 Triton 提供的一些開箱即用的關鍵新特性、工具和服務,可應用于生產中的模型部署、運行和擴展。

使用新管理服務建立業(yè)務流程模型

Triton 為高效的多模型推理帶來了一種新的模型編排服務。該軟件應用程序目前處于早期使用階段,有助于以資源高效的方式簡化 Kubernetes 中 Triton 實例的部署,其中包含許多模型。此服務的一些關鍵功能包括:

按需加載模型,不使用時卸載模型。

盡可能在單個 GPU 服務器上放置多個模型,從而有效地分配 GPU 資源

管理單個模型和模型組的自定義資源需求

大型語言模型推理

在自然語言處理( NLP )領域,模型的規(guī)模呈指數級增長(圖 1 )。具有數千億個參數的大型 transformer-based models 可以解決許多 NLP 任務,例如文本摘要、代碼生成、翻譯或 PR 標題和廣告生成。

poYBAGNFDCSAfRe2AAKT7MsSCuo971.png

圖 1.NLP 模型規(guī)模不斷擴大

但這些型號太大了,無法安裝在單個 GPU 中。例如,具有 17.2B 參數的圖靈 NLG 需要至少 34 GB 內存來存儲 FP16 中的權重和偏差,而具有 175B 參數的 GPT-3 需要至少 350 GB 內存。要使用它們進行推理,您需要多 GPU 和越來越多的多節(jié)點執(zhí)行來為模型服務。

Triton 推理服務器有一個稱為 Faster transformer 的后端,它為大型 transformer 模型(如 GPT 、 T5 等)帶來了多 GPU 多節(jié)點推理。大型語言模型通過優(yōu)化和分布式推理功能轉換為更快的 transformer 格式,然后使用 Triton 推理服務器跨 GPU 和節(jié)點運行。

圖 2 顯示了使用 Triton 在 CPU 或一個和兩個 A100 GPU 上運行 GPT-J ( 6B )模型時觀察到的加速。

pYYBAGNFDCWAIP-hAAA3lzufBFs393.png

圖 2.Faster transformer 后端的模型加速

基于樹的模型推斷

Triton 可用于在 CPU 和 GPU 上部署和運行 XGBoost 、 LightGBM 和 scikit learn RandomForest 等框架中基于樹的模型,并使用 SHAP 值進行解釋。它使用去年推出的 Forest Inference Library ( FIL )后端實現了這一點。

使用 Triton 進行基于樹的模型推理的優(yōu)點是在機器學習深度學習模型之間的推理具有更好的性能和標準化。它特別適用于實時應用程序,如欺詐檢測,其中可以輕松使用較大的模型以獲得更好的準確性。

使用模型分析器優(yōu)化模型配置

高效的推理服務需要為參數選擇最佳值,例如批大小、模型并發(fā)性或給定目標處理器的精度。這些值指示吞吐量、延遲和內存需求。在每個參數的值范圍內手動嘗試數百種組合可能需要數周時間。

Triton 模型分析器工具將找到最佳配置參數所需的時間從幾周減少到幾天甚至幾小時。它通過對給定的目標處理器脫機運行數百個具有不同批大小值和模型并發(fā)性的推理模擬來實現這一點。最后,它提供了如圖 3 所示的圖表,可以方便地選擇最佳部署配置。

poYBAGNFDCeAWsZxAAH1B-byIl4140.png

圖 3.模型分析器工具的輸出圖表

使用業(yè)務邏輯腳本為管道建模

pYYBAGNFDCmAB09gAADh5j7ouxU278.png

圖 4.模型集成與業(yè)務邏輯腳本

使用 Triton ?聲波風廓線儀的模型集成功能,您可以構建復雜的模型管道和集成,其中包含多個模型以及預處理和后處理步驟。業(yè)務邏輯腳本使您能夠在管道中添加條件、循環(huán)和步驟的重新排序。

使用 Python 或 C ++后端,您可以定義一個自定義腳本,該腳本可以根據您選擇的條件調用 Triton 提供的任何其他模型。 Triton 有效地將數據傳遞到新調用的模型,盡可能避免不必要的內存復制。然后將結果傳遞回自定義腳本,您可以從中繼續(xù)進一步處理或返回結果。

圖 4 顯示了兩個業(yè)務邏輯腳本示例:

Conditional execution 通過避免執(zhí)行不必要的模型,幫助您更有效地使用資源。

Autoregressive models 與 transformer 解碼一樣,要求模型的輸出反復反饋到自身,直到達到某個條件。業(yè)務邏輯腳本中的循環(huán)使您能夠實現這一點。

自動生成模型配置

Triton 可以自動為您的模型生成配置文件,以加快部署速度。對于 TensorRT 、 TensorFlow 和 ONNX 模型,當 Triton 在存儲庫中未檢測到配置文件時,會生成運行模型所需的最低配置設置。

Triton 還可以檢測您的模型是否支持批推理。它將max_batch_size設置為可配置的默認值。

您還可以在自己的自定義 Python 和 C ++后端中包含命令,以便根據腳本內容自動生成模型配置文件。當您有許多模型需要服務時,這些特性特別有用,因為它避免了手動創(chuàng)建配置文件的步驟。

解耦輸入處理

poYBAGNFDCqARHzoAAA7fs3VtOQ520.png

圖 5.通過解耦輸入處理實現的一個請求到多個響應場景

雖然許多推理設置需要推理請求和響應之間的一對一對應,但這并不總是最佳數據流。

例如,對于 ASR 模型,發(fā)送完整的音頻并等待模型完成執(zhí)行可能不會帶來良好的用戶體驗。等待時間可能很長。相反, Triton 可以將轉錄的文本以多個短塊的形式發(fā)送回來(圖 5 ),從而減少了第一次響應的延遲和時間。

通過 C ++或 Python 后端的解耦模型處理,您可以為單個請求發(fā)送多個響應。當然,您也可以做相反的事情:分塊發(fā)送多個小請求,然后返回一個大響應。此功能在如何處理和發(fā)送推理響應方面提供了靈活性。

開始可擴展 AI 模型部署

您可以使用 Triton 部署、運行和縮放 AI 模型,以有效緩解您在多個框架、多樣化基礎設施、大型語言模型、優(yōu)化模型配置等方面可能面臨的 AI 推理挑戰(zhàn)。

Triton 推理服務器是開源的,支持所有主要模型框架,如 TensorFlow 、 PyTorch 、 TensorRT 、 XGBoost 、 ONNX 、 OpenVINO 、 Python ,甚至支持 GPU 和 CPU 系統(tǒng)上的自定義框架。探索將 Triton 與任何應用程序、部署工具和平臺、云端、本地和邊緣集成的更多方法。

關于作者

Shankar Chandrasekaran 是 NVIDIA 數據中心 GPU 團隊的高級產品營銷經理。他負責 GPU 軟件基礎架構營銷,以幫助 IT 和 DevOps 輕松采用 GPU 并將其無縫集成到其基礎架構中。在 NVIDIA 之前,他曾在小型和大型科技公司擔任工程、運營和營銷職位。他擁有商業(yè)和工程學位。

Neal Vaidya 是 NVIDIA 深度學習軟件的技術營銷工程師。他負責開發(fā)和展示以開發(fā)人員為中心的關于深度學習框架和推理解決方案的內容。他擁有杜克大學統(tǒng)計學學士學位。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4945

    瀏覽量

    131228
  • 服務器
    +關注

    關注

    13

    文章

    9795

    瀏覽量

    87969
  • 深度學習
    +關注

    關注

    73

    文章

    5561

    瀏覽量

    122794
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    使用NVIDIA Triton和TensorRT-LLM部署TTS應用的最佳實踐

    針對基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張 NVIDIA Ada Lovelace
    的頭像 發(fā)表于 06-12 15:37 ?588次閱讀
    使用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Triton</b>和TensorRT-LLM部署TTS應用的最佳實踐

    Cognizant將與NVIDIA合作部署神經人工智能平臺,加速企業(yè)人工智能應用

    -Cognizant將與NVIDIA合作部署神經人工智能平臺,加速企業(yè)人工智能應用 Cognizant將在關鍵增長領域提供解決方案,包括企業(yè)級AI智能體、定制化行業(yè)大型語言模型及搭載
    的頭像 發(fā)表于 03-26 14:42 ?314次閱讀
    Cognizant將與<b class='flag-5'>NVIDIA</b>合作部署神經<b class='flag-5'>人工智能</b>平臺,加速企業(yè)<b class='flag-5'>人工智能</b>應用

    Triton編譯器在機器學習中的應用

    1. Triton編譯器概述 Triton編譯器是NVIDIA Triton推理服務平臺的一部分,它負責將深度學習模型轉換為優(yōu)化的格式,以便在NVI
    的頭像 發(fā)表于 12-24 18:13 ?989次閱讀

    19位國際頂尖學者聯(lián)袂撰寫《重新審視邊緣人工智能:機遇與挑戰(zhàn)

    19位國際頂尖學者聯(lián)袂撰寫《重新審視邊緣人工智能:機遇與挑戰(zhàn)
    的頭像 發(fā)表于 11-27 01:04 ?873次閱讀
    19位國際頂尖學者聯(lián)袂撰寫《重新審視邊緣<b class='flag-5'>人工智能</b>:機遇與<b class='flag-5'>挑戰(zhàn)</b>》

    嵌入式和人工智能究竟是什么關系?

    嵌入式和人工智能究竟是什么關系? 嵌入式系統(tǒng)是一種特殊的系統(tǒng),它通常被嵌入到其他設備或機器中,以實現特定功能。嵌入式系統(tǒng)具有非常強的適應性和靈活性,能夠根據用戶需求進行定制化設計。它廣泛應用于各種
    發(fā)表于 11-14 16:39

    《AI for Science:人工智能驅動科學創(chuàng)新》第6章人AI與能源科學讀后感

    了電力的實時平衡和優(yōu)化,有效降低了電網的運行成本和故障率。 此外,書中還討論了人工智能在能源科學研究中的挑戰(zhàn)和機遇。這些挑戰(zhàn)包括數據質量、算法優(yōu)化、隱私保護等方面,而機遇則體現在技術創(chuàng)新、產業(yè)升級
    發(fā)表于 10-14 09:27

    AI for Science:人工智能驅動科學創(chuàng)新》第4章-AI與生命科學讀后感

    很幸運社區(qū)給我一個閱讀此書的機會,感謝平臺。 《AI for Science:人工智能驅動科學創(chuàng)新》第4章關于AI與生命科學的部分,為我們揭示了人工智能技術在生命科學領域中的廣泛應用和深遠影響。在
    發(fā)表于 10-14 09:21

    《AI for Science:人工智能驅動科學創(chuàng)新》第二章AI for Science的技術支撐學習心得

    非常高興本周末收到一本新書,也非常感謝平臺提供閱讀機會。 這是一本挺好的書,包裝精美,內容詳實,干活滿滿。 關于《AI for Science:人工智能驅動科學創(chuàng)新》第二章“AI
    發(fā)表于 10-14 09:16

    《AI for Science:人工智能驅動科學創(chuàng)新》第一章人工智能驅動的科學創(chuàng)新學習心得

    ,還促進了新理論、新技術的誕生。 3. 挑戰(zhàn)與機遇并存 盡管人工智能為科學創(chuàng)新帶來了巨大潛力,但第一章也誠實地討論了伴隨而來的挑戰(zhàn)。數據隱私、算法偏見、倫理道德等問題不容忽視。如何在利用AI提升科研效率
    發(fā)表于 10-14 09:12

    risc-v在人工智能圖像處理應用前景分析

    RISC-V在人工智能圖像處理領域的應用前景十分廣闊,這主要得益于其開源性、靈活性和低功耗等特點。以下是對RISC-V在人工智能圖像處理應用前景的詳細分析: 一、RISC-V的基本特點 RISC-V
    發(fā)表于 09-28 11:00

    人工智能ai 數電 模電 模擬集成電路原理 電路分析

    人工智能ai 數電 模電 模擬集成電路原理 電路分析 想問下哪些比較容易學 不過好像都是要學的
    發(fā)表于 09-26 15:24

    人工智能ai4s試讀申請

    目前人工智能在繪畫對話等大模型領域應用廣闊,ai4s也是方興未艾。但是如何有效利用ai4s工具助力科研是個需要研究的課題,本書對ai4s基本原理和原則,方法進行描訴,有利于總結經驗,擬按照要求準備相關體會材料??茨芊裼兄谌腴T和提高ss
    發(fā)表于 09-09 15:36

    名單公布!【書籍評測活動NO.44】AI for Science:人工智能驅動科學創(chuàng)新

    、污染治理、碳減排三個方面介紹了人工智能為環(huán)境科學引入的新價值和新機遇。 第8章探討了AI for Science在快速發(fā)展過程中面臨的機遇和挑戰(zhàn),并對“平臺科研”模式進行了展望。 申請時間
    發(fā)表于 09-09 13:54

    報名開啟!深圳(國際)通用人工智能大會將啟幕,國內外大咖齊聚話AI

    8月28日至30日,2024深圳(國際)通用人工智能大會暨深圳(國際)通用人工智能產業(yè)博覽會將在深圳國際會展中心(寶安)舉辦。大會以“魅力AI·無限未來”為主題,致力于打造全球通用人工智能領域集產品
    發(fā)表于 08-22 15:00

    FPGA在人工智能中的應用有哪些?

    FPGA(現場可編程門陣列)在人工智能領域的應用非常廣泛,主要體現在以下幾個方面: 一、深度學習加速 訓練和推理過程加速:FPGA可以用來加速深度學習的訓練和推理過程。由于其高并行性和低延遲特性
    發(fā)表于 07-29 17:05
    主站蜘蛛池模板: 亚洲一区二区视频 | 免费激情网址 | 青草青视频在线观看 | 天堂男人网 | 二区久久国产乱子伦免费精品 | 91福利国产在线观看网站 | 夜夜爽天天狠狠九月婷婷 | 色综合狠狠 | 爽死你个放荡粗暴小淫视频 | 婷婷开心六月久久综合丁香 | 国产嫩草影院在线观看 | 亚洲第一免费播放区 | 四虎www成人影院免费观看 | 欧美黄一片 | 午夜免费观看福利片一区二区三区 | 福利精品 | 狠狠躁夜夜躁人人躁婷婷视频 | 亚洲综合色婷婷 | 欧美高清成人 | 美女下面小内内的沟 | 黄色一级毛片在线观看 | 男女全黄做爰视频 | 曰本裸色私人影院噜噜噜影院 | 黄篇网站在线观看 | 天天操天天干天天舔 | 日本国产高清色www视频在线 | aa三级动态图无遮无挡 | 天堂tv在线观看 | 日本a级精品一区二区三区 日本a级特黄三级三级三级 | 免费香蕉视频国产在线看 | 欧美一区二区三区四区在线观看 | 视频在线观看高清免费看 | 国产成人综合日韩精品婷婷九月 | 人人狠狠综合88综合久久 | 国产免费播放一区二区三区 | 射在老师的里面真爽 | 黄色的视频免费看 | 激情综合色综合久久综合 | 色婷婷网| 午夜精品久久久久 | 丁香花的视频免费观看 |