91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NVIDIA全棧加速代理式AI應用落地

NVIDIA英偉達 ? 來源:NVIDIA英偉達 ? 2025-07-14 11:41 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在近期舉辦的 AWS 中國峰會上,NVIDIA 聚焦于“NVIDIA 全棧加速代理式 AI 應用落地”,深入探討了代理式 AI (Agentic AI) 技術的前沿發展以及在企業級應用中的深遠影響。本文將為您詳細介紹此次分享的技術亮點及實踐應用。

AI Agent 技術發展現狀

隨著人工智能技術的不斷演進,從感知式 AI 到生成式 AI,再到代理式 AI,我們正見證全新工作方式的誕生。代理式 AI 不僅使更強大的 AI 應用成為可能,而且正迅速成為解決特定業務問題的關鍵工具。數據顯示,到 2025 年,約有一半的組織將使用 AI智能體(AI Agent) 幫助解決特定業務問題。隨著技術發展,每個人都可以創建自己的 AI Agent。一些工作流可使周期時間縮短 40%。根據 Gartner 報告,到 2028 年,約三分之一的企業級軟件開發將引入 AI Agent,而 2024 年這一數字不到 1%,可見相關方面發展迅速。

AI Agent 工作原理與架構

AI Agent 的運行需要人類撰寫 prompt,設定角色、場景、任務及需要 AI 執行的操作,并告知整體信息。之后,大語言模型自行生成計劃,確定工具,甚至協同調動其他 Agent。經過一系列分析和生成后,需通過批判總結決定 Agent 是繼續迭代還是返回結果給用戶。

首先,Agent 需持續學習和迭代。通過建立飛輪系統,讓模型在實際應用中學習,反哺模型迭代,提高模型魯棒性和適應性。其次,作為企業級應用,安全性和隱私保護至關重要。需保證結果可靠性,盡量避免大語言模型幻覺。同時,人機或用戶與 AI 的交互應盡可能友好,以發揮最佳效果。

AI Agent 技術框架與實現

一、AI Agent 構建模塊

構建 AI Agent,有三個重要組成部分,從下往上看:

NVIDIANIM是預構建的容器工具,使用非常簡單,只需幾分鐘即可部署企業級安全穩定的大語言模型推理服務。通過 docker 拉取一個 docker 鏡像,完成下載模型等前置工作后,就可以通過一個 Open AI API 或其他行業標準的 API 格式來調用,從而得到一個線上生產環境可用的、安全穩定的大語言模型推理服務。NIM 集成了優化的推理引擎,如 TensorRT-LLM、vLLM 等,這些推理引擎可以幫助優化首 token 延遲、吞吐等指標,在 TCO 可控的情況下,盡量提高吞吐和整體細分表現。此外 NIM 可以在任意地點便捷部署和擴展,包括數據中心、工作站,甚至云上或邊緣(如公有云、混合云、私有云等)。NVIDIA 也與國內外的云廠商進行集成,如亞馬遜科技等,可在云上快速使用產品。

NVIDIA NeMo是一套數據飛輪框架,涵蓋模型訓練和應用的多個模塊。通過該數據飛輪,我們可以持續優化迭代模型和應用。

與 AI Agent 最為緊密的是NVIDIA AI Blueprint,它是我們提供的工作流,可向開發者展示如何快速構建安全的、企業級應用。NVIDIA AI Blueprint 涵蓋 PDF 轉音頻視頻搜索與總結等多模態模型和工具,可以通過“搭積木”的方式,將多個 Blueprint 模塊化的組成一個工作流來解決復雜問題。同時也可以調用外部工具,使整個應用場景或覆蓋面更加全面。典型應用包括 AI 研究助理 Agent、客服機器人、安全 AI Agent 等,均作為參考,用戶可通過 NeMo 構建符合應用場景的內容。

二、生成式 AI 數據飛輪:

數據飛輪是一種反饋循環機制,通過從交互或流程中收集數據,持續優化 AI 模型,進而產生更優的結果和更有價值的數據。

NVIDIA NeMo 是一個生成式 AI 的框架,其中:

NeMo Curator:在模型預訓練階段需獲取大量數據集,但是從網上獲取的海量數據集質量往往參差不齊。需要進行質量篩選和去重等步驟。通過集成的 GPU 加速模塊,對于十分耗時的質量檢測、去重等步驟,可以通過 NeMo Curator 快速實現。

NeMo Customizer:模型數據收集完成后,可通過 NeMo Customizer 開始模型訓練或微調。

NeMo Evaluator:模型訓練好后,由 NeMo Evaluator 評估其質量,判斷其是否符合預期、滿足業務需求。

訓練好的模型上線部署后,我們將其構建成更復雜的工作流,將單個 NIM 和其他工具總結成 Blueprint,以服務我們的業務場景。

在 RAG(檢索增強生成)或 Agent 過程中,向量檢索是一個十分重要的技術模塊。NVIDIA cuVS集成了 GPU 加速的 ANN (Approximate Nearest Neighbors) 算法,可以提高向量檢索的效率。作為企業級應用,安全性和隱私保護至關重要,NVIDIA Guardrails作為 AI 護欄,可以檢測生成過程中比較危險或不太友好的內容,使線上服務更加安全可靠。

經過上述鏈路,最后線上驗證過的數據通過回路回到數據集,這部分數據再經過 NeMo Customizer 進行訓練微調,就完成了數據閉環。通過這樣一步一步的迭代,線上數據反哺回模型訓練。

三、面向企業應用的大語言模型定制

我們的模型能力不斷增強,使得線上服務效果更加安全可靠。Customizer 涵蓋的能力多元,從最初的簡單微調、復雜的 sft,到現在常用的強化學習方法。我們還可根據企業特定場景進行相應微調。

以 DeepSeek-V3 訓練為例,Transformer Engine 集成了類似 DeepSeek-V3 的 FP8 block wise 算子和 recipe。在 Megatron-Core 層面,基于 DeepSeek-V3 特定架構,支持了 MLA 結構。同時,對 MTP 也有較好支持,還有負載均衡和路由策略。除了支持外,還有相關優化。

DeepSeek-V3 使用 DualPipe 流水線并行策略,Megatron-Core 中也有類似策略,稱為 1F1B (F: Forward, B: Backward)。通過 1F1B 的流水線機制,很好地將 MoE 計算與通信進行 overlap,減小訓練延遲,提高訓練效率。

同時,對于 DeepSeek 開源的內容,我們也有較好集成。在并行方面,Megatron-Core 擅長并行,我們做了 MoE parallel folding。這是指在一個模型里既有 Attention 層,也有 MoE 層,我們針對不同層進行處理。可以使用 parallel folding 方法,將其并行策略解耦,即 Attention 部分和 MoE 層分別采用不同的并行策略,以達到整體更好的效率。NeMo,即更面向用戶的層面,除了支持 DeepSeek 的 sft,同時也支持把 DeepSeek-R1 蒸餾到小模型。

四、加速推理的優化技術

如今模型越來越大,參數達到千億級,需要更強的推理算力。同時,這些模型都是推理模型,邏輯推理需要更多的思考時間,甚至需要超過 100 倍的思考 token。此外,我們的模型現在也支持更長的上下文窗口,在使用過程中,無論是對話系統中的多輪對話,還是 Agent 使用過程中的 Agent-to-Agent、human-to-Agent 等交互手段,都會使上下文 context 變得更長,甚至達到百萬級輸入 token 以上,這些都對計算推理提出了更多的挑戰,也推動著新型優化技術的誕生。

1. 分離式部署 (PD 分離):

大語言模型的推理分為兩個階段。第一個是預填充 (Prefill) 階段,這是一個計算密集 (Compute-Bound) 階段,需要較多算力。第二個是解碼 (Decode) 階段,在這個階段,隨著吐出的 token 越來越多,它進入了一個內存密集 (Memory-Bound) 階段。為了更好地利用預填充和解碼的相關特性來優化首 token 延遲和吞吐,分離式部署是比較適應大語言模型推理場景的部署技術。將預填充和解碼兩個階段分開,結合其計算特點,分配適合其特定型號的 GPU,并針對不同特性制定不同策略,結合線上 SLA 服務標準,分配不同數量的節點,以優化首 token 延遲和吞吐。

2. NVIDIA Dynamo:

NVIDIA Dynamo是針對分離式部署或大規模分布式部署的框架,具備以下特點:

分布式部署:支持便捷地擴充至上千卡 GPU 的線上部署。

GPU 管理及調度(GPU 規劃器):可根據線上實時請求變化或 SLA 服務標準動態調整預填充節點或解碼節點的數量,以更好地滿足服務需求。

智能路由:在多個節點的情況下,可以結合 KV Cache 等指標,將 decode 任務分配給最佳節點。

典型應用場景案例

一、AI 研究助理 Agent

AI 研究助理 Agent 執行 PDF 轉音頻的任務。將論文、博客等文檔輸入到模型中,通過工具轉換為 markdown 文件。在此過程中,需要為 Agent 提供復雜的 prompt。首先,按照要求整理出文件大綱,然后根據大綱將腳本分段,進行深入探索并總結有思考性的內容。然后,對整體腳本進行優化,并將多個部分組合輸出整理成結構化文本。在這個過程中,人類需要做的是梳理出多個 prompt,并在多個階段調用不同尺寸的模型來處理不同任務。文檔輸入時內容龐雜,使用尺寸更大的模型來處理復雜任務。總結時可使用尺寸更小的模型來提高工作流的經濟效益。通過這一系列步驟后,輸出文本再通過類似 ElevenLabs 的 TTS 服務或 TTS 模型合成為音頻文件,返回給用戶。

二、軟件安全檢測 Agent

隨著 CVE.org 記錄的漏洞突破 20 萬大關,軟件安全補丁管理面臨嚴峻挑戰。傳統人工分析、日常掃描漏洞需耗時數日,而基于事件驅動 RAG 技術的軟件安全檢測 Agent 可將緩解時間壓縮至秒級,通過實時檢測新軟件包或漏洞特征,智能判定組件風險,并自主執行全流程檢查清單,最終向安全團隊提交包含可操作建議的分析報告。

三、視頻分析 Agent

用于視頻搜索和總結的 Agent 每天可分析 10 萬 PB 級的視頻數據。該 Agent 使用NVIDIA Cosmos Nemotron的視覺語言模型,可以從視頻數據中提取文本信息,再通過NeMo Retriever Embedding抽取為 embedding,形成向量數據庫。同時,并行流程通過分析從視頻中提取的信息構建圖數據庫。當有新視頻輸入時,就可通過召回鏈路查詢上述數據庫,再通過大模型進行總結生成,完成整個視頻分析鏈路。

總結

從 AI 研究助理、軟件安全檢測到大規模視頻分析,這些應用場景正切實推動代理式 AI 落地,在解決復雜業務問題、提升工作效率方面發揮關鍵作用。NVIDIA 通過全棧解決方案和工具,助力企業構建安全、穩定、高效的代理式 AI 應用。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5308

    瀏覽量

    106344
  • AI
    AI
    +關注

    關注

    88

    文章

    35093

    瀏覽量

    279522
  • 人工智能
    +關注

    關注

    1806

    文章

    49008

    瀏覽量

    249305
  • AWS
    AWS
    +關注

    關注

    0

    文章

    436

    瀏覽量

    25272

原文標題:NVIDIA 全棧加速代理式 AI 應用落地

文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    NVIDIA技術助力企業創建主權AI智能體

    AI Factory 的經驗證設計將加速基礎設施與軟件(包括全新 NVIDIA NIM 微服務和經擴展的 NVIDIA Blueprint)相結合,為各國和企業簡化了
    的頭像 發表于 06-16 14:28 ?565次閱讀

    NVIDIA攜手諾和諾德借助AI加速藥物研發

    NVIDIA 宣布與諾和諾德開展合作,借助創新 AI 應用加速藥物研發。此次合作也將支持諾和諾德與丹麥 AI 創新中心 (DCAI) 關于使用 Gefion
    的頭像 發表于 06-12 15:49 ?501次閱讀

    NVIDIA攜手微軟加速代理式AI發展

    代理式 AI 正在重新定義科學探索,推動各行各業的研究突破和創新發展。NVIDIA 和微軟正通過深化合作提供先進的技術,從云到 PC 加速代理式
    的頭像 發表于 05-27 14:03 ?353次閱讀

    基于代理式AI建立網絡安全防御體系

    NVIDIA AI 安全為先進的代理式系統提供信任、控制和管理支持。
    的頭像 發表于 05-07 14:29 ?410次閱讀

    NVIDIA攜手谷歌云助力企業引入代理式AI

    谷歌 Gemini 模型即將支持本地部署,可通過搭載 NVIDIA Blackwell 架構的基礎設施,在 Google 分布式云上運行 NVIDIA 機密計算。
    的頭像 發表于 04-11 16:32 ?478次閱讀

    Cadence 利用 NVIDIA Grace Blackwell 加速AI驅動的工程設計和科學應用

    提升高達 80 倍 ●?基于全新 NVIDIA Llama Nemotron 推理模型,攜手開發面向工程設計和科學應用的代理式 AI
    的頭像 發表于 03-24 10:14 ?773次閱讀

    英偉達GTC2025亮點:NVIDIA、Alphabet 和谷歌攜手開啟代理式與物理AI的未來

    應用、加速物理 AI 進展,并實現醫療、制造及能源等行業的變革。 Alphabet 旗下的工程師和研究人員正與 NVIDIA 技術團隊緊密合作,利用 AI 和仿真技術開發具有抓取能力的
    的頭像 發表于 03-21 15:10 ?1143次閱讀
    英偉達GTC2025亮點:<b class='flag-5'>NVIDIA</b>、Alphabet 和谷歌攜手開啟<b class='flag-5'>代理式</b>與物理<b class='flag-5'>AI</b>的未來

    英偉達GTC2025亮點:Oracle與NVIDIA合作助力企業加速代理式AI推理

    Oracle 數據庫與 NVIDIA AI 相集成,使企業能夠更輕松、快捷地采用代理式 AI Oracle 和 NVIDIA 宣布,
    的頭像 發表于 03-21 12:01 ?697次閱讀
    英偉達GTC2025亮點:Oracle與<b class='flag-5'>NVIDIA</b>合作助力企業<b class='flag-5'>加速</b><b class='flag-5'>代理式</b><b class='flag-5'>AI</b>推理

    Oracle 與 NVIDIA 合作助力企業加速代理式 AI 推理

    ——Oracle 和 NVIDIA 今日宣布,NVIDIA 加速計算和推理軟件與 Oracle 的 AI 基礎設施以及生成式 AI 服務首
    發表于 03-19 15:24 ?356次閱讀
    Oracle 與 <b class='flag-5'>NVIDIA</b> 合作助力企業<b class='flag-5'>加速</b><b class='flag-5'>代理式</b> <b class='flag-5'>AI</b> 推理

    NVIDIA Blackwell RTX PRO 提供工作站和服務器兩種規格,助力設計師、開發者、數據科學家和創作人員構建代理式

    月 18 日 —— NVIDIA 今日發布了 NVIDIA RTX PRO? Blackwell 系列工作站和服務器 GPU,通過突破性的加速計算、AI 推理、光線追蹤和神經渲染技術
    發表于 03-19 09:50 ?319次閱讀
    <b class='flag-5'>NVIDIA</b> Blackwell RTX PRO 提供工作站和服務器兩種規格,助力設計師、開發者、數據科學家和創作人員構建<b class='flag-5'>代理式</b>

    NVIDIA 推出開放推理 AI 模型系列,助力開發者和企業構建代理式 AI 平臺

    NVIDIA 后訓練的全新 Llama Nemotron 推理模型,為代理式 AI 提供業務就緒型基礎 埃森哲、Amdocs、Atlassian、Box、Cadence、CrowdStrike
    發表于 03-19 09:31 ?232次閱讀
    <b class='flag-5'>NVIDIA</b> 推出開放推理 <b class='flag-5'>AI</b> 模型系列,助力開發者和企業構建<b class='flag-5'>代理式</b> <b class='flag-5'>AI</b> 平臺

    NVIDIA 發布保障代理式 AI 應用安全的 NIM 微服務

    NVIDIA NeMo Guardrails 包含全新 NVIDIA NIM 微服務,能夠為各行業構建 AI 的企業提高 AI 的準確性、安全性和可控性。 ?
    發表于 01-17 16:29 ?157次閱讀

    NVIDIA與合作伙伴推出代理式AI Blueprint

    開發者現在可以使用全新 NVIDIA AI Blueprint 構建和部署具備推理、規劃和行動能力的定制化 AI 智能體。這些藍圖囊括了 NVIDIA NIM 微服務、
    的頭像 發表于 01-09 11:08 ?663次閱讀

    深度解析研華AI產品布局

    在人工智能邁向邊緣智能化的浪潮中,研華科技通過“Edge AI+生態協同”戰略推動AIoT 2.0時代的產業落地。本文專訪研華科技產品總監邱柏儒,深度解析研華
    的頭像 發表于 12-05 09:51 ?1031次閱讀

    代理式AI如何運作

    代理式 AI 使用復雜的推理和迭代規劃來自主解決復雜的多步驟問題。
    的頭像 發表于 11-09 11:45 ?793次閱讀
    <b class='flag-5'>代理式</b><b class='flag-5'>AI</b>如何運作
    主站蜘蛛池模板: 一级片在线免费 | 一级做a爰片久久毛片看看 一级做a爰片久久毛片毛片 | 国产乱辈通伦影片在线播放亚洲 | 亚洲第一网站快活影院 | 欧美在线视频播放 | 一级录像 | 亚洲午夜综合网 | 在线毛片网站 | 狠狠色噜噜狠狠狠狠97 | 亚洲精品美女 | 在线观看成人网 | a理论片 | 国产成人综合网 | 九月婷婷综合 | 一本大道一卡二卡四卡 | 国产小视频在线播放 | 夜夜精品视频 | 中日韩精品视频在线观看 | 欧美性久久 | 国产无圣光高清一区二区 | 久久99热精品这里久久精品 | 亚洲成av人片在线观看无码 | 国产主播在线观看 | 在线看视频你懂的 | 天天拍夜夜添久久精品中文 | 久久精品99无色码中文字幕 | 夜夜bb | 欧美亚洲天堂 | 免费午夜视频 | 美女张开腿让男生桶出水 | 久久在线播放 | 天天综合天天做 | 四虎影视在线影院4hu | 国产伦精品一区二区免费 | 四虎新网址 | 午夜视频在线免费看 | 国模无水印一区二区三区 | 精品玖玖 | 五月激情电影 | 免费人成在线观看视频色 | 亚洲男人的天堂成人 |