在介紹選擇GPU服務器的基本原則之前,先來跟大家介紹下常見的GPU和GPU服務器。
常見的GPU,按總線接口類型可以分為NV-Link接口、傳統總線接口以及傳統PCI-e總線三種。
NV-Link接口類型的GPU典型代表是NVIDIA V100,采用SXM2接口,在DGX-2上有SXM3的接口。
NV-Link總線標準的GPU服務器可以分為兩類,一類是NVIDIA公司設計的DGX超級計算機,另一類是合作伙伴設計的NV-Link接口的服務器。DGX超級計算機不僅僅提供硬件,還有相關的軟件和服務。
傳統總線接口的GPU,目前主流的有這幾款產品,比如采用了PCI-e接口的V100、 P40(P開頭指的是上一代PASCAL架構)和P4,以及最新的圖靈架構T4等。其中比較薄和只占一個槽位的P4和T4,通常用于Inference,目前也已經有成熟的模型進行推理和識別。
傳統PCI-e總線的GPU服務器也分為兩類,一類是OEM服務器,比如曙光、浪潮、華為等其他國際品牌;另一類是非OEM的服務器,也包括很多種類。
選擇服務器時除了分類,還要考慮性能指標,比如精度、顯存類型、顯存容量以及功耗等,同時也會有一些服務器是需要水冷、降噪或者對溫度、移動性等等方面有特殊的要求,就需要特殊的服務器。
選擇GPU服務器時首先要考慮業務需求來選擇適合的GPU型號。在HPC高性能計算中還需要根據精度來選擇,比如有的高性能計算需要雙精度,這時如果使用P40或者P4就不合適,只能使用V100或者P100;同時也會對顯存容量有要求,比如石油或石化勘探類的計算應用對顯存要求比較高;還有些對總線標準有要求,因此選擇GPU型號要先看業務需求。
GPU服務器人工智能領域的應用也比較多!
在教學場景中,對GPU虛擬化的要求比較高。根據課堂人數,一個老師可能需要將GPU服務器虛擬出30甚至60個虛擬GPU,因此批量Training對GPU要求比較高,通常用V100做GPU的訓練。模型訓練完之后需要進行推理,因此推理一般會使用P4或者T4,少部分情況也會用V100。
當GPU型號選定后,再考慮用什么樣GPU的服務器。這時我們需要考慮以下幾種情況:
第一、在邊緣服務器上需要根據量來選擇T4或者P4等相應的服務器,同時也要考慮服務器的使用場景,比如火車站卡口、機場卡口或者公安卡口等;在中心端做Inference時可能需要V100的服務器,需要考慮吞吐量以及使用場景、數量等。
第二、需要考慮客戶本身使用人群和IT運維能力,對于BAT這類大公司來說,他們自己的運營能力比較強,這時會選擇通用的PCI-e服務器;而對于一些IT運維能力不那么強的客戶,他們更關注數字以及數據標注等,我們稱這類人為數據科學家,選擇GPU服務器的標準也會有所不同。
第三、需要考慮配套軟件和服務的價值。
第四、要考慮整體GPU集群系統的成熟程度以及工程效率,比如像DGX這種GPU一體化的超級計算機,它有非常成熟的從底端的操作系統驅動Docker到其他部分都是固定且優化過的,這時效率就比較高。
中科云達DGX-1
輕松取得工作成果
如今的深度學習環境在軟件設計方面耗費的時間價值可達數十萬美元,而開源軟件需要數月的時間才能變得穩定。借助 NVIDIA DGX-1,您可以立即提高效率,簡化工作流程并與團隊開展協作。利用配有 NVIDIA 隨時更新的優化軟件解決方案可節省您的時間和資金。
革命性的 AI 性能
盡管許多解決方案都提供 GPU 加速性能,但只有 NVIDIA DGX-1 發揮出了最新 NVIDIA? Tesla? V100 的全部潛力,包括下一代 NVIDIA NVLink? 和 Tensor 核心架構。相 比其他基于 GPU 的系統,DGX-1 憑借 NVIDIA GPU Cloud 深度學習軟件堆棧和當今流行的技術框架,將訓練速度提升高達三倍。
投資保護
利用 NVIDIA 深度學習專業知識的全部力量支持您的項目,因此您無需再浪費時間和資金費力地獲得想要的結果。NVIDIA 的企業級支持讓您無需耗費時間對硬件和開源軟件進行問題排查。節省調試和優化時間,增加更多時間專注探索發現。
通往深度學習的更快路徑
構建深度學習平臺不僅僅在于選擇服務器和 GPU。在企業環境中實施 AI 需要慎重選擇和集成復雜的軟件和硬件。NVIDIA DGX-1? 通過開箱即用的解決方案來加快實施您的計劃,如此一來,您可以在幾小時而非數周或數月內獲得見解。
-
gpu
+關注
關注
28文章
4832瀏覽量
129798 -
服務器
+關注
關注
12文章
9436瀏覽量
86510 -
PCI
+關注
關注
5文章
673瀏覽量
130721
發布評論請先 登錄
相關推薦
評論