伴隨著視覺 AI 復(fù)雜性的增加,精簡的部署解決方案已成為優(yōu)化空間和流程的關(guān)鍵。NVIDIA 能夠加快企業(yè)的開發(fā)速度,借助 NVIDIA Metropolis AI 工作流和微服務(wù),企業(yè)只需數(shù)周就能將想法變成現(xiàn)實(shí),而原本這項工作需要耗費(fèi)數(shù)月時間。
本文將探討 Metropolis 微服務(wù)的功能:
借助 NVIDIA Metropolis 微服務(wù)進(jìn)行云原生 AI 應(yīng)用開發(fā)和部署
借助 NVIDIA Isaac Sim 進(jìn)行仿真和合成數(shù)據(jù)生成
借助 NVIDIA TAO 套件進(jìn)行 AI 模型訓(xùn)練和微調(diào)
借助 PipeTuner 自動調(diào)整準(zhǔn)確性
圖 1. 可擴(kuò)展的現(xiàn)代視覺 AI 開發(fā)秘訣
借助 Metropolis 微服務(wù)和工作流
進(jìn)行云原生 AI 應(yīng)用開發(fā)和部署
使用 AI 對基礎(chǔ)設(shè)施進(jìn)行管理和自動化具有一定的挑戰(zhàn)性,尤其是在超市、倉庫、機(jī)場、港口和城市等大而復(fù)雜的空間。這不僅需要增加攝像頭的數(shù)量,還需要在數(shù)萬乃至數(shù)十萬平方英尺的空間內(nèi),通過數(shù)百或數(shù)千個攝像頭構(gòu)建能夠進(jìn)行智能監(jiān)控、提取洞察,并突出顯示異常情況的視覺 AI 應(yīng)用。
微服務(wù)架構(gòu)可將復(fù)雜的多攝像頭 AI 應(yīng)用分解成較小的獨(dú)立單位,這些單位通過定義明確的 API 進(jìn)行交互,實(shí)現(xiàn)可擴(kuò)展性、靈活性和彈性。該方法實(shí)現(xiàn)了每項微服務(wù)的獨(dú)立開發(fā)、部署和擴(kuò)展,使整個應(yīng)用更加模塊化和易于維護(hù)。
實(shí)時、可擴(kuò)展的多攝像頭追蹤和分析應(yīng)用包含以下關(guān)鍵組件:
多攝像頭追蹤模塊,用于匯總來自每個攝像頭的本地信息,并維護(hù)整個場景中的對象全局 ID
用于行為分析和異常檢測的各種模塊
軟件基礎(chǔ)設(shè)施,比如實(shí)時、可擴(kuò)展的消息代理(例如 Kafka)、數(shù)據(jù)庫(例如 Elasticsearch)等
標(biāo)準(zhǔn)接口,用于連接需要請求式元數(shù)據(jù)和視頻流的下游服務(wù)
每個模塊必須是云原生微服務(wù),以使您的應(yīng)用具有可擴(kuò)展性、分散性和彈性
圖 2. 使用 Metropolis 微服務(wù)
的可擴(kuò)展視覺 AI 應(yīng)用工作流
Metropolis 微服務(wù)為您開發(fā)視覺 AI 應(yīng)用和解決方案提供了強(qiáng)大且可定制的云原生構(gòu)建模塊,在提高彈性與安全性的同時,使從邊緣部署到云部署的原型設(shè)計、構(gòu)建、測試和擴(kuò)展過程變得更加簡單快捷。無論是倉庫和超市,還是機(jī)場和公路,這些微服務(wù)能夠加快各種空間獲得業(yè)務(wù)洞察的速度。
圖 3. 適用于視覺 AI 應(yīng)用的 Metropolis 微服務(wù)套件
接下來的章節(jié)將詳細(xì)介紹一些關(guān)鍵的微服務(wù):
媒體管理
感知
多攝像頭融合
媒體管理微服務(wù)
媒體管理微服務(wù)基于 NVIDIA 視頻存儲套件(VST),并提供了一種管理攝像頭和視頻的高效方式。VST 具有由硬件提供加速的視頻解碼、流式傳輸和存儲功能。
圖 4. 使用媒體管理微服務(wù)
來管理攝像頭和視頻文件
該微服務(wù)支持帶有控制和數(shù)據(jù)流的 ONVIF S 型配置文件設(shè)備 ONVIF 發(fā)現(xiàn)。您可以通過 IP 地址或 RTSP URL 手動管理設(shè)備。它還支持 H264 和 H265 視頻格式。VST 專為安全的行業(yè)標(biāo)準(zhǔn)協(xié)議和多平臺而設(shè)計。
感知微服務(wù)
感知微服務(wù)從媒體管理微服務(wù)獲取輸入數(shù)據(jù),并在單個數(shù)據(jù)流中生成感知元數(shù)據(jù)(邊界框、單攝像機(jī)軌跡、Re-ID 嵌入向量)。隨后,它將這些數(shù)據(jù)發(fā)送到下游分析微服務(wù),以進(jìn)行進(jìn)一步推理和深入分析。
圖 5. 使用感知微服務(wù)檢測并追蹤對象
該微服務(wù)使用 NVIDIA DeepStream SDK 構(gòu)建。它通過提供能夠抽象化低級編程任務(wù)的預(yù)構(gòu)建模塊和 API,為實(shí)時視頻 AI 推理提供了一種低代碼或無代碼方法。借助 DeepStream,您可以通過一個簡單的配置文件來配置復(fù)雜的視頻分析管線,指定對象檢測、分類、追蹤等任務(wù)。
多攝像頭融合微服務(wù)
多攝像頭融合微服務(wù)能夠聚合并處理多個攝像頭視圖的信息,通過 Kafka(或任何具有類似消息模式的自定義源)從感知微服務(wù)獲取感知元數(shù)據(jù),并從攝像頭校準(zhǔn)套件獲取外在校準(zhǔn)信息作為輸入。
圖 6. 使用多攝像頭融合微服務(wù)
追蹤多個攝像頭中的對象
在這項微服務(wù)的內(nèi)部,數(shù)據(jù)會進(jìn)入行為狀態(tài)管理模塊,以維護(hù)之前批次的行為,并與傳入微批次的數(shù)據(jù)串接,創(chuàng)建出軌跡。
接下來,該微服務(wù)執(zhí)行分層聚類的兩個步驟,重新分配共存的行為并抑制重疊的行為。
最后,ID 合并模塊將單個對象的 ID 合并為全局 ID,從而保持多個傳感器觀測到的對象之間的相關(guān)性。
Metropolis AI 工作流
所提供的參考工作流和應(yīng)用能幫助您評估和整合高級功能。
例如,多攝像頭追蹤(MTMC)工作流作為一項視頻分析參考工作流,可執(zhí)行多目標(biāo)、多攝像頭追蹤,并提供一段時間內(nèi)觀察到的唯一對象的計數(shù)。
圖 7. 使用多個 Metropolis 微服務(wù)
的多攝像頭追蹤工作流
該應(yīng)用工作流從媒體管理微服務(wù)中獲取實(shí)時攝像頭視頻作為輸入。
它通過感知微服務(wù)執(zhí)行對象檢測和追蹤。
來自感知微服務(wù)的元數(shù)據(jù)進(jìn)入多攝像頭融合微服務(wù),以追蹤多個攝像頭中的對象。
并行線程進(jìn)入經(jīng)過擴(kuò)展的行為分析微服務(wù),首先對元數(shù)據(jù)進(jìn)行預(yù)處理,并將圖像坐標(biāo)轉(zhuǎn)換為世界坐標(biāo),然后運(yùn)行狀態(tài)管理服務(wù)。
隨后,數(shù)據(jù)進(jìn)入行為分析微服務(wù),它與 MTMC 微服務(wù)一起以 API 端點(diǎn)的形式提供各種分析功能。
Web UI 微服務(wù)將結(jié)果可視化。
接口攝像頭校準(zhǔn)
在大多數(shù) Metropolis 工作流中,分析都是在真實(shí)世界坐標(biāo)系中進(jìn)行的。為了將攝像頭坐標(biāo)轉(zhuǎn)換為真實(shí)世界坐標(biāo),我們提供了一個對用戶友好、基于網(wǎng)絡(luò)的攝像頭校準(zhǔn)套件。該套件具有以下功能:
從 VMS 輕松導(dǎo)入攝像頭
用于在攝像頭圖像和平面圖之間選擇參考點(diǎn)的界面
用于自檢的即時重投影誤差
用于 ROI 和絆線的附加組件
圖像或建筑平面圖文件上傳
導(dǎo)出至網(wǎng)絡(luò)或 API
圖 8. Metropolis 攝像頭校準(zhǔn)套件
這個直觀的套件簡化了攝像頭的設(shè)置和校準(zhǔn)過程,實(shí)現(xiàn)了與 Metropolis 工作流和微服務(wù)的無縫集成。
2024 年 AI 城市挑戰(zhàn)賽
NVIDIA 多攝像頭追蹤工作流使用了多攝像頭人員追蹤數(shù)據(jù)集進(jìn)行評估,該數(shù)據(jù)集來自與 CVPR 2024 聯(lián)合舉辦的第 8 屆 AI 城市挑戰(zhàn)賽(2024 年)研討會。這一數(shù)據(jù)集是該領(lǐng)域最大的數(shù)據(jù)集,涵蓋了 953 個攝像頭、2491 個人物和超過 1 億個邊界框,分為 90 個子集。數(shù)據(jù)集的視頻總時長為 212 分鐘,以每秒 30 幀的幀率高清(1080p)錄制。
NVIDIA 的這一方法取得了 68.7% 的 HOTA 高分,在 19 支國際團(tuán)隊中排名第二(圖 9)。
圖 9. 2024 年 AI 城市挑戰(zhàn)賽
MTMC追蹤基準(zhǔn)測試排行榜
該基準(zhǔn)測試僅關(guān)注批處理模式(即應(yīng)用可以訪問整個視頻)下的準(zhǔn)確性。在線運(yùn)行或流式運(yùn)行的應(yīng)用只能訪問歷史數(shù)據(jù),不能訪問相對于當(dāng)前幀的未來數(shù)據(jù)。這可能會使某些已提交的方法變得不切實(shí)際,或需要進(jìn)行大規(guī)模的重構(gòu)才能進(jìn)行實(shí)際部署。該基準(zhǔn)測試未考慮的因素包括:
從輸入到預(yù)測的延遲
運(yùn)行時吞吐量(在既定計算平臺或預(yù)算范圍內(nèi)可運(yùn)行多少流)
可部署性
可擴(kuò)展性
大多數(shù)團(tuán)隊無需對這些方面進(jìn)行優(yōu)化。
而 Metropolis 微服務(wù)中的多攝像頭追蹤除準(zhǔn)確性外還必須考慮和優(yōu)化所有這些因素,以便能夠?qū)?shí)時、可擴(kuò)展的多攝像頭追蹤部署到生產(chǎn)用例中。
一鍵式微服務(wù)部署
Metropolis 微服務(wù)支持在 AWS、Azure 和 GCP 上一鍵部署。部署工件和說明可在 NGC 上下載,因此您只需提供一些前提參數(shù),就能在自己的云賬戶上快速啟動端到端 MTMC 應(yīng)用。每個工作流都打包了一個 Compose 文件,因此也可以使用 Docker Compose 進(jìn)行部署。
對于邊緣到云攝像頭流式傳輸,可以使用在邊緣運(yùn)行的媒體管理客戶端(VST 代理),將邊緣的攝像頭連接到在任何一家 CSP 中運(yùn)行的 Metropolis 應(yīng)用,以進(jìn)行分析。
這一簡化的部署流程使您能夠在各種云平臺上快速構(gòu)建、測試和擴(kuò)展視覺 AI 應(yīng)用,從而減少將解決方案投入生產(chǎn)所需的時間和精力。
借助 Isaac Sim 進(jìn)行
仿真和合成數(shù)據(jù)生成
訓(xùn)練專用于特定用例的 AI 模型需要各種經(jīng)過標(biāo)記的數(shù)據(jù)集,而采集這些數(shù)據(jù)集往往成本高昂且耗時漫長。通過計算機(jī)仿真生成的合成數(shù)據(jù)是一種性價比更高的替代方法,能夠減少訓(xùn)練的時間和費(fèi)用。
仿真與合成數(shù)據(jù)在現(xiàn)代視覺 AI 開發(fā)周期中發(fā)揮著至關(guān)重要的作用:
生成合成數(shù)據(jù)并將其與真實(shí)數(shù)據(jù)相結(jié)合,以提高模型的準(zhǔn)確性和通用性
幫助開發(fā)和驗證具有多攝像頭追蹤與分析功能的應(yīng)用
調(diào)整部署環(huán)境,例如提出優(yōu)化的攝像頭角度或覆蓋范圍
NVIDIA Isaac Sim 可與合成數(shù)據(jù)生成(SDG)管線無縫集成,為加強(qiáng) AI 模型訓(xùn)練以及改進(jìn)端到端應(yīng)用設(shè)計與驗證提供了精密的配套工具。無論是機(jī)器人、工業(yè)自動化,還是智慧城市、零售分析,您都可以生成適用于各種應(yīng)用的合成數(shù)據(jù)。
圖 10. 借助 NVIDIA Isaac Sim
創(chuàng)建用于 AI 訓(xùn)練的合成數(shù)據(jù)集
Isaac Sim 中的 Omni.Replicator.Agent (ORA) 擴(kuò)展程序可簡化人員和自主移動機(jī)器人(AMR)等智能體的仿真,并從包含這些智能體的場景中生成合成數(shù)據(jù)。
ORA 提供帶有默認(rèn)環(huán)境、資產(chǎn)和動畫的 GPU 加速解決方案,為自定義集成提供助力。其自動攝像頭校準(zhǔn)功能能夠生成與 Metropolis 微服務(wù)中的工作流兼容的校準(zhǔn)信息,例如后文提到的多攝像頭追蹤(MTMC)工作流。
圖 11. 借助 ORA 擴(kuò)展程序創(chuàng)建的場景
借助 TAO 套件
進(jìn)行 AI 模型訓(xùn)練和微調(diào)
Metropolis 微服務(wù)采用一些基于 CNN 和 Transformer 的模型,這些模型最初在真實(shí)數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,然后使用合成數(shù)據(jù)進(jìn)行增強(qiáng),以實(shí)現(xiàn)更加強(qiáng)大的泛化和應(yīng)對罕見情況。
基于 CNN 的模型:
a.PeopleNet:基于NVIDIA DetectNet_v2架構(gòu)。已在 760多萬張圖像上進(jìn)行了預(yù)訓(xùn)練,其中包含 7100 多萬個人物對象。
b.ReidentificationNet:使用 ResNet-50骨干。在真實(shí)數(shù)據(jù)集與合成數(shù)據(jù)集所組成的組合數(shù)據(jù)集上訓(xùn)練而成,包括 Market-1501 數(shù)據(jù)集中的 751 個唯一 ID 和 MTMC 人員追蹤數(shù)據(jù)集中的 156 個唯一 ID。
基于轉(zhuǎn)換器的模型:
a.PeopleNet 轉(zhuǎn)換器:使用帶有 FAN-Small 特征提取器的 DINO 對象檢測器。在 OpenImages 數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,并在包含 150 多萬張圖像和 2700 多萬個人物對象的專有數(shù)據(jù)集上進(jìn)行微調(diào)。
b.ReID 轉(zhuǎn)換器模型:采用 Swin 骨干并結(jié)合 SOLIDER 等自我監(jiān)督學(xué)習(xí)技術(shù),生成適用于人員再識別的強(qiáng)大人類表征。該預(yù)訓(xùn)練數(shù)據(jù)集包含由專有數(shù)據(jù)集與 Open Image V5 等開放數(shù)據(jù)集組成的組合數(shù)據(jù)集,共有 14392 張合成圖像(包含 156 個唯一 ID)和 67563 張真實(shí)圖像(包含 4470 個 ID)。
除了直接使用這些模型外,您還可以使用 NVIDIA TAO 套件在自定義數(shù)據(jù)集上輕松地對這些模型進(jìn)行微調(diào),以提高它們的準(zhǔn)確性,并優(yōu)化新訓(xùn)練的模型在幾乎任何平臺上的推理吞吐量。TAO 套件基于 TensorFlow 和 PyTorch 構(gòu)建。
圖 12. NVIDIA TAO 套件架構(gòu)
借助 PipeTuner 自動調(diào)整準(zhǔn)確性
PipeTuner 是一款專門用于簡化 AI 管線調(diào)整工作的全新開發(fā)者工具。
AI 服務(wù)通常包含大量用于推理和追蹤的參數(shù),因此要找到能夠最大程度提高特定用例準(zhǔn)確性的最佳設(shè)置具有一定的挑戰(zhàn)性。而要進(jìn)行手動調(diào)整,就需要對每個管線模塊有深入的了解,這在大量高維參數(shù)空間的情況下不切實(shí)際。
PipeTuner 能夠解決此類問題,它可以根據(jù)所提供的數(shù)據(jù)集自動識別最佳參數(shù),使關(guān)鍵性能指標(biāo)(KPI)達(dá)到最佳。通過高效探索參數(shù)空間,PipeTuner 簡化了整個優(yōu)化過程,使用戶即便不具備管線及其參數(shù)方面的技術(shù)知識也能使用。
圖 13. NVIDIA PipeTuner 套件工作流
總結(jié)
Metropolis 微服務(wù)在提高彈性和安全性的同時,簡化并加速了從邊緣部署到云部署的原型設(shè)計、構(gòu)建、測試和擴(kuò)展過程。這些微服務(wù)不但十分靈活、易于配置且無需編碼,而且封裝了高效的 CNN 和基于 Transformer 的模型,以滿足您的要求。只需點(diǎn)擊幾下,即可將整個端到端工作流部署到公有云或生產(chǎn)中。
通過使用 NVIDIA Isaac Sim、NVIDIA TAO 套件、PipeTuner 和 NVIDIA Metropolis 微服務(wù),您可以輕松創(chuàng)建功能強(qiáng)大的實(shí)時多攝像頭 AI 解決方案。這一綜合全面的平臺能夠幫助各個行業(yè)的企業(yè)獲得有價值的洞察,并優(yōu)化空間和流程。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5274瀏覽量
105928 -
微服務(wù)
+關(guān)注
關(guān)注
0文章
145瀏覽量
7690 -
數(shù)字孿生
+關(guān)注
關(guān)注
4文章
1464瀏覽量
12766
原文標(biāo)題:借助 NVIDIA Metropolis 微服務(wù)和 NVIDIA Isaac Sim,實(shí)現(xiàn)從數(shù)字孿生到云原生部署的實(shí)時視覺 AI
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
GTC23 | NVIDIA Metropolis 生態(tài)壯大,先進(jìn)開發(fā)工具加速視覺 AI 發(fā)展
在線研討會 | 在 Jetson 上使用 Metropolis API 和微服務(wù)加速邊緣人工智能開發(fā)

評論