在人工智能飛速發(fā)展的今天,大語言模型(LLM)為各個行業(yè)帶來了全新的場景和機(jī)遇。諸如客戶服務(wù)數(shù)字人,計(jì)算機(jī)輔助藥物研發(fā)的生成式虛擬篩選,基于檢索增強(qiáng)生成(RAG)的企業(yè)多模態(tài) PDF 數(shù)據(jù)提取,網(wǎng)絡(luò)安全流數(shù)據(jù)過濾、處理和分類優(yōu)化等工作流,正在無縫集成和運(yùn)行在定制化的企業(yè) AI 應(yīng)用,企業(yè)還能夠基于專有業(yè)務(wù)數(shù)據(jù)和用戶反饋數(shù)據(jù),不斷優(yōu)化 AI 應(yīng)用。
同時,企業(yè)也面臨著如何高效、安全地部署 LLM 的挑戰(zhàn)。阿里云計(jì)算巢基于 NVIDIA 加速計(jì)算技術(shù),通過阿里云云市場為企業(yè)和開發(fā)者提供NVIDIA AI Enterprise軟件套件,其包含了NVIDIA NIM Agent Blueprint、NVIDIA NIM和NVIDIA NeMo等企業(yè)級 AI 開發(fā)工作流和 AI 開發(fā)工具鏈。其中,NVIDIA NIM 提供可靠、高性能的 LLM 推理服務(wù),結(jié)合阿里云計(jì)算巢實(shí)現(xiàn)一站式云上部署,助力企業(yè)加速實(shí)現(xiàn) LLM 的 SaaS 化。
本文以 Llama3 為例,介紹該方案的整體架構(gòu)和部署方式。
NVIDIA NIM:
易于使用的預(yù)構(gòu)建容器工具
NVIDIA NIM 微服務(wù)是一套易于使用的預(yù)構(gòu)建容器工具,目的是幫助企業(yè)客戶在云、數(shù)據(jù)中心和工作站上安全、可靠地部署高性能 AI 模型。作為 NVIDIA AI Enterprise 的一部分,NIM 具備以下核心優(yōu)勢:
安全、靈活的部署:NIM 在不同環(huán)境的 CUDA GPU 加速基礎(chǔ)設(shè)施和 Kubernetes 發(fā)行版中經(jīng)過嚴(yán)格驗(yàn)證和基準(zhǔn)測試,它支持企業(yè)在云、數(shù)據(jù)中心、工作站上安全可靠地部署高性能的 AI 推理,只需 5 分鐘即可完成部署。
加速產(chǎn)品上市:企業(yè)通過預(yù)構(gòu)建、持續(xù)維護(hù)的微服務(wù),能夠快速將產(chǎn)品推向市場,縮短開發(fā)周期。
開發(fā)者友好:開發(fā)者使用標(biāo)準(zhǔn) API 和幾行代碼即可輕松將 NIM 集成到企業(yè)級 AI 應(yīng)用程序中。
優(yōu)化的推理引擎:NIM 基于Triton 推理服務(wù)器、TensorRT、TensorRT-LLM和 PyTorch 等強(qiáng)大的推理引擎構(gòu)建, 提供行業(yè)領(lǐng)先的吞吐率、延遲和 token 生成速度,確保服務(wù)響應(yīng)更快。
企業(yè)級支持:NIM 采用企業(yè)級基礎(chǔ)容器構(gòu)建,提供嚴(yán)格的驗(yàn)證、定期安全更新,適合企業(yè)生產(chǎn)環(huán)境部署。
阿里云計(jì)算巢:專為服務(wù)商
及其客戶打造的云集成 PaaS 平臺
阿里云計(jì)算巢服務(wù)是一個開放給企業(yè)應(yīng)用服務(wù)商(包括:企業(yè)應(yīng)用服務(wù)商、IT 集成服務(wù)商、交付服務(wù)商和管理服務(wù)提供商等)及其用戶的服務(wù)管理 PaaS 平臺,提供軟件上云的“一站式”解決方案。
阿里云計(jì)算巢能提供軟件的交付、部署、運(yùn)維流程標(biāo)準(zhǔn)化的服務(wù),支持軟件和資源的一體化交付,真正實(shí)現(xiàn)了軟件的開箱即用。
阿里云計(jì)算巢服務(wù)集成了阿里云一系列底層產(chǎn)品能力,通過通用的應(yīng)用管控框架、租戶管理框架,幫助服務(wù)商提升服務(wù)的交付效率、管理效率和服務(wù)能力,在提升用戶滿意度的同時降低運(yùn)營成本;并為用戶提供了統(tǒng)一管理多種應(yīng)用服務(wù)的平臺,提升用戶使用服務(wù)的效率和安全性,降低用戶獲取服務(wù)和管理服務(wù)的成本。
方案介紹
下圖展示了通過阿里云計(jì)算巢快速部署 NVIDIA NIM 的整體架構(gòu)。以 Llama3 為例,我們通過計(jì)算巢來創(chuàng)建、管理 LLM 推理服務(wù):在阿里云容器服務(wù) ACK (容器服務(wù) Kubernetes 版)集群上,我們使用阿里云 ACK 的云原生 AI 套件,集成開源推理服務(wù)框架 KServe,來部署 NVIDIA NIM。
同時,結(jié)合 ACK 的 Prometheus 和 Grafana 監(jiān)控服務(wù),快速搭建監(jiān)控大盤,實(shí)時觀測推理服務(wù)狀態(tài);利用 NVIDIA NIM 提供豐富的監(jiān)控指標(biāo),如 num_requests_waiting,配置推理服務(wù)彈性擴(kuò)縮容策略。
這里列出的云上資源,以及阿里云彈性計(jì)算服務(wù)(ECS)、專有網(wǎng)絡(luò)(VPC) 等基礎(chǔ)資源,都可以通過計(jì)算巢來輕松配置,一鍵拉起,最終實(shí)現(xiàn)一個云上高性能、可實(shí)時觀測、極致彈性的大語言模型推理服務(wù)。用戶只需要根據(jù)該服務(wù)創(chuàng)建實(shí)例,便可部署該服務(wù)。
圖 1. 通過阿里云計(jì)算巢快速部署
NVIDIA NIM 架構(gòu)圖
(圖片來源于阿里云,如您有任何疑問或需要使用本圖片,請聯(lián)系阿里云)
部署流程
1. 參考 NVIDIA NIM 文檔,生成NVIDIA NGC API Key,用于訪問需要部署的模型鏡像。以本文用到的 Llama-3-8B-Instruct 為例,可以通過NVIDIA NGC 目錄來獲取。
同時,請閱讀并承諾遵守 Llama 模型的自定義可商用開源協(xié)議。
2. 在阿里云計(jì)算巢服務(wù)目錄中找到“基于 NVIDIA NIM 快速部署 LLM 模型推理服務(wù)”,并進(jìn)入實(shí)例部署頁面。
如下圖所示,主要配置服務(wù)的基本信息和云上資源,以及第一步中獲取的 NVIDIA NGC API Key,需要填寫在下圖相應(yīng)位置。
圖 2. 在阿里云計(jì)算巢創(chuàng)建服務(wù)實(shí)例
(圖片來源于阿里云,如您有任何疑問或需要使用本圖片,請聯(lián)系阿里云)
因?yàn)榉?wù)部署在阿里云 ACK 集群之上,這里也包含了 Kubernetes 配置:
圖 3. 阿里云 ACK 集群上 Kubernetes
選項(xiàng)頁面
(圖片來源于阿里云,如您有任何疑問或需要使用本圖片,請聯(lián)系阿里云)
3. 按照頁面提示完成所有配置之后,點(diǎn)擊下一步:確認(rèn)訂單,在這里確認(rèn)第 2 步配置的服務(wù)實(shí)例信息和價(jià)格預(yù)覽。
圖 4. 確認(rèn)服務(wù)實(shí)例信息和價(jià)格預(yù)覽
(圖片來源于阿里云,如您有任何疑問或需要使用本圖片,請聯(lián)系阿里云)
部署過程中,用戶需要創(chuàng)建和訪問阿里云資源,當(dāng)阿里云賬號屬于 RAM 賬號時,需要開通以下權(quán)限,頁面上也有開通這些權(quán)限的入口。
4. 點(diǎn)擊立即創(chuàng)建,開始部署。過程中會涉及阿里云資源的創(chuàng)建、NIM 模型鏡像的拉取等。拉取過程的日志,可通過”點(diǎn)擊資源 tab-> 找到 ACK 集群->頁面左側(cè)的工作負(fù)載->無狀態(tài)”來查看。部署完成后,進(jìn)入服務(wù)實(shí)例詳情查看使用說明。通過 curl 發(fā)送 HTTP 請求訪問推理服務(wù),修改 content 字段,便可自定義和推理服務(wù)交互的內(nèi)容。
圖 5. 服務(wù)實(shí)例詳情頁面截圖
(圖片來源于阿里云,如您有任何疑問或需要使用本圖片,請聯(lián)系阿里云)
通過阿里云的云市場獲取
NVIDIA AI Enterprise 使用該方案
NVIDIA NIM 是 NVIDIA AI Enterprise 的一部分,正式使用時須獲得 NVIDIA AI Enterprise 的許可證授權(quán)。現(xiàn)在,企業(yè)用戶可以通過阿里云云市場獲取 NVIDIA AI Enterprise 來使用該方案。阿里云市場提供了概念驗(yàn)證(PoC)測試服務(wù)和購買 NVIDIA AI Enterprise 許可證,共兩個下單頁面。
PoC 測試服務(wù)
提供 90 天 NVIDIA AI Enterprise PoC License,暨 90 天免費(fèi)試用,而使用時須支付阿里云計(jì)算資源的費(fèi)用。
通過阿里云的云市場購買 NVIDIA AI Enterprise 許可證
該頁面提供的信息僅供參考,用戶需要通過該頁面的“NVIDIA 服務(wù)咨詢”釘釘來溝通采購,最終通過云市場官網(wǎng)推送下單鏈接獲取 NVIDIA AI Enterprise 許可證。
總結(jié)
本文介紹了通過阿里云計(jì)算巢快速部署 NVIDIA NIM 的方案收益和部署方式,該方案充分利用了 NIM 的安全與高性能的無縫 AI 推理功能,以及計(jì)算巢的軟件一站式上云和交付能力,從而打造極致彈性、高性能、可實(shí)時觀測的云上 LLM 推理服務(wù)。
作者信息
毛亦姝
NVIDIA 解決方案架構(gòu)師,主要負(fù)責(zé)生成式 AI 模型的訓(xùn)練、推理在云上的落地,多年互聯(lián)網(wǎng)算法工作經(jīng)驗(yàn)。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5181瀏覽量
105344 -
AI
+關(guān)注
關(guān)注
87文章
33377瀏覽量
273874 -
人工智能
+關(guān)注
關(guān)注
1803文章
48381瀏覽量
244433 -
阿里云
+關(guān)注
關(guān)注
3文章
998瀏覽量
43715
原文標(biāo)題:通過阿里云計(jì)算巢部署 NVIDIA NIM,加速企業(yè)大語言模型 SaaS 化
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
【產(chǎn)品活動】阿里云GPU云服務(wù)器年付5折!阿里云異構(gòu)計(jì)算助推行業(yè)發(fā)展!
一張圖看懂阿里云新發(fā)布的物聯(lián)網(wǎng)設(shè)備上云神器——HiTSDB + IoT套件
阿里云彈性高性能計(jì)算產(chǎn)品商業(yè)化正式發(fā)布
AI開發(fā)者福音!阿里云推出國內(nèi)首個基于英偉達(dá)NGC的GPU優(yōu)化容器
阿里云免費(fèi)使用及手冊
阿里云專有宿主機(jī)(公測)發(fā)布
阿里云HPC助力新制造 | 上汽仿真計(jì)算云SSCC
Bazaar:阿里云Serverless計(jì)算服務(wù)探秘
阿里云企業(yè)IPv6部署方案
阿里云應(yīng)用上邊緣云解決方案助力互聯(lián)網(wǎng)All in Cloud
阿里展示“云到端”整體方案
NVIDIA NIM 革命性地改變模型部署,將全球數(shù)百萬開發(fā)者轉(zhuǎn)變?yōu)樯墒?AI 開發(fā)者

借助NVIDIA NIM加速AI應(yīng)用部署

評論