辰东完美世界有声小说,唐家三少,辰东全部小说

電子發燒友網報道（文/周凱揚）人工智能在進化的過程中，最不可或缺的便是模型和算力。訓練出來的通用大模型省去了重復的開發工作，目前不少大模型都為學術研究和AI開發提供了方便，比如華為的盤古、搜狗的BERTSG、北京智源人工智能研究院的悟道2.0等等。

那么訓練出這樣一個大模型需要怎樣的硬件前提？如何以較低的成本完成自己模型訓練工作？這些都是不少AI初創企業需要考慮的問題，那么如今市面上有哪些訓練芯片是經得起考驗的呢？我們先從國外的幾款產品開始看起。

英偉達A100

英偉達的A100可以說是目前AI訓練界的明星產品，A100剛面世之際可以說是世界上最快的深度學習 GPU。盡管近來有無數的GPU或其他AI加速器試圖在性能上撼動它的地位，但綜合實力來看，A100依然穩坐頭把交椅。

A100 GPU / 英偉達A100可是英偉達特推出的首個7nm GPU，在826mm2的芯片大小上鋪滿了542億個晶體管。要知道，其消費級GPU雖然同樣采用安培架構，但仍在使用三星的8nm制程。至于算力什么的，GPU在單個或多個處理器配置上都有著不俗的優勢，甚至還能憑借英偉達自己的互聯技術實現更高的帶寬。具體的算力數據我們也已提過多次，我們這次講的是AI訓練，自然是要比訓練上的表現，這里先留個懸念。性能雖高，但使用A100的成本可并不便宜。今年10月，微軟和英偉達推出了迄今為止訓練最強大的生成語言模型Megatron-Turing Natural Language Generation（MT-NLG），擁有5300億個參數。如此強大的模型究竟是如何訓練出來的呢？答案是560個英偉達DGX A100服務器，每個服務器都內置了8 x A100 80GB GPU，訓練出這個模型的造價最低也要在百萬美元以上。如此看來，難不成這些模型只能靠購置昂貴的GPU，或是靠花錢如流水一般的GPU服務器來訓練了？并非如此。

英特爾Gaudi和Ponte Vecchio

19年12月，英特爾收購了以色列的Habana Labs，將其旗下的AI加速器產品線納入囊中。Habana Labs目前推出了用于推理的Goya處理器和用于訓練的Gaudi處理器。盡管Habana Labs已經隸屬英特爾，但現有的產品仍然基于臺積電的16nm制程，傳言稱其正在開發的Gaudi2將用上臺積電的7nm制程。目前Gaudi已經用于亞馬遜云服務AWS的EC2 DL1訓練實例中，該實例選用了AWS定制的英特爾第二代Xeon可擴展處理器，最多可配置8個Gaudi處理器，每個處理器配有32GB的HBM內存，400Gbps的網絡架構加上100Gbps的互聯帶寬，并支持4TB的NVMe存儲。

Gaudi與A100在ResNet-50和BERT訓練成本上的對比 / Habana Labs Habana Labs和AWS共同宣稱，Gaudi的方案可以提供云端深度學習模型訓練的最佳性價比，與最新的GPU實例相比性價比高出40%。Habana Labs給出了直接的價格對比，在對比AWS EC2 P4d實例（8個英偉達A100 GPU）時，8個Gaudi處理器的每小時價格為13.11美元，比前者低了60%。針對特定的模型，Habana Labs也對A100和V100方案進行了對比，比如利用Tensorflow實現ResNet50圖像處理（BF16/FP16）時，Gaudi處理每張圖片的成本要比A100低46%，更是比V100低了61%。 Habana Labs為Gaudi定義的用例主要在物體識別/分割、圖像分類和自然語言處理器方面的深度學習模型訓練。比如生產中的故障檢測、醫療中的2D/3D掃描和醫學成像、自動駕駛中的物體分割以及文本情感分析等等。我們都知道在超算領域中，英特爾在主要處理器上的份額與出場率都比較高，加速器上則依舊是英偉達和AMD的GPU占優，不過Habana Labs的Gaudi其實已經開始發力，比如圣地亞哥超級計算中心（SDSC）打造的AI超算Voyager。這里的Voyager可不是TOP500新晉第十名的Voyager-EUS2，而是SDSC打造的一款試驗性超算，專注于高性能高效率的AI運算，該超算集成了336個Gaudi訓練處理器和16個Goya推理處理器。

A100與Ponte Vecchio在ResNet-50 v1.5上的訓練表現對比 / 英特爾不過英特爾似乎也不打算放棄GPU這條路，甚至打算走的更遠一點。今年的架構日上，英特爾為其Ponte Vecchio Xe HPC GPU透露了更多的細節。英特爾拿出了ResNet-50單個GPU處理圖像的訓練結果對比，Ponte Vecchio獲得了超過3400張圖片每秒的成績，而英偉達單張A100 GPU的成績為2963張圖片每秒。根據Habana Labs于19年六月公布的數據，單個Gaudi處理器的成績為1650張圖片每秒。單從結果來看，英特爾和英偉達兩者打造的旗艦GPU在模型訓練上還是很有優勢的，而且還能承擔推理工作負載，Gaudi的性能確實更適合高性價比的專用訓練場景。依小編的觀點來看，Ponte Vecchio更像是英特爾為HPC+AI準備的一張GPU，明年開始出貨后我們說不定會在超算上看到更多應用。而Gaudi更像是為云服務和數據中心準備的訓練處理器，讓開發者在可負擔的價格下享受到優秀的性能。更不用說英特爾也開始為FPGA（Stratix 10 NX）在相同的方向上鋪路，英特爾可以說是為AI開發者提供了多個選擇。

亞馬遜Trainium

最后我們以亞馬遜的訓練芯片收尾，亞馬遜提供的服務器實例可以說是最多樣化的，也包含了以上提到的A100和Gaudi。亞馬遜作為云服務巨頭，早已開始部署自己的服務器芯片生態，不僅在今年推出了第三代Graviton服務器處理器，也正式發布了去年公開的訓練芯片Trainium，并推出了基于該芯片的Trn1實例。