深度學習(DL)的創(chuàng)新,特別是大語言模型(LLM)的快速發(fā)展,已經(jīng)席卷了整個行業(yè)。深度學習模型的參數(shù)已從數(shù)百萬增加到數(shù)十億,為我們呈現(xiàn)了越來越多激動人心的新能力。它們正在催生新的應用,如生成式AI或醫(yī)療保健和生命科學的高級研究。亞馬遜云科技一直在芯片、服務器、數(shù)據(jù)中心互連和軟件服務等多個方面創(chuàng)新,加速深度學習工作負載的大規(guī)模應用。
亞馬遜云科技在2022 re:Invent 全球大會上,以其最新的自研機器學習推理芯片Amazon Inferentia2為基礎,發(fā)布了AmazonEC2 Inf2系列實例的預覽版。AmazonEC2 Inf2類型實例專門針對全球大規(guī)模運行高性能深度學習推理應用程序,為部署在EC2上的生成式AI應用提供最佳性價比,其中包含GPT-J或開放式預訓練Transformer(OPT)語言模型。
現(xiàn)在,亞馬遜云科技宣布Amazon EC2 Inf2實例正式可用。
Inf2實例是AmazonEC2上首個推理優(yōu)化的實例,支持可擴展的分布式推理,可實現(xiàn)多個inferentia2芯片之間的超高速連接。用戶可以在Inf2實例中跨多個芯片高效部署具有數(shù)千億個參數(shù)的模型。與Amazon EC2 Inf1實例相比,Inf2實例的吞吐量提高4倍,延遲降低10倍。
新Inf2實例的亮點
Inf2實例目前有四種可用實例類型,最高擴展至12個Amazon Inferentia2芯片和192個vCPU配置。在BF16或FP16數(shù)據(jù)類型下,它們能夠提供2.3 petaFLOPS的綜合計算能力,并具有芯片間超高速NeuronLink互連的功能。NeuronLink可在多個Inferentia2芯片上擴展大模型,避免通信瓶頸,實現(xiàn)更高性能的推理。
每個Inferentia2芯片內(nèi)有32 GB的高帶寬內(nèi)存(HBM),最高配置的Inf2 實例可提供高達384 GB的共享加速器內(nèi)存,總內(nèi)存帶寬為9.8 TB/s。對于需要大內(nèi)存支持的的大型語言模型而言,這種帶寬對于支持模型推理尤為重要。
基于專門為深度學習工作負載而構建的Amazon Inferentia2芯片的Amazon EC2 Inf2,相比同類實例,單位功率性能高出了50%。
AmazonInferentia2的創(chuàng)新之處
與亞馬遜自研機器學習訓練芯片Amazon Trainium類似,每個Amazon Inferentia2芯片都配有兩個經(jīng)過優(yōu)化的NeuronCore-v2引擎、高帶寬內(nèi)存(HBM)堆棧和專用的集體計算引擎,以便在執(zhí)行多加速器推理時實現(xiàn)計算與通信的并行。
每個NeuronCore-v2都有專為深度學習算法構建的標量、向量和張量三種引擎,其中張量引擎針對矩陣運算進行了優(yōu)化;標量引擎針對ReLU(修正線性單元)函數(shù)等元素性操作進行了優(yōu)化;向量引擎針對批處理規(guī)范化或池化等非元素向量運算進行了優(yōu)化。
以下是Amazon Inferentia2芯片和服務器硬件其他創(chuàng)新總結:
數(shù)據(jù)類型——Amazon Inferentia2 支持多種數(shù)據(jù)類型,包括FP32、TF32、BF16、FP16 和UINT8,用戶可以為工作負載選擇最合適的數(shù)據(jù)類型。它還支持新的可配置FP8(cFP8)數(shù)據(jù)類型,該數(shù)據(jù)類型特別適用于大模型,因為它減少了模型的內(nèi)存占用和I/O 要求。
動態(tài)執(zhí)行和動態(tài)輸入形狀——Amazon Inferentia2 具有支持動態(tài)執(zhí)行的嵌入式通用數(shù)字信號處理器(DSP),因此無需在主機上展開或執(zhí)行控制流運算符。Amazon Inferentia2 還支持動態(tài)輸入形狀,這些形狀對于具有未知輸入張量大小的模型(例如處理文本的模型)至關重要。
自定義運算符——Amazon Inferentia2支持用C++語言編寫的自定義運算符。Neuron自定義C++運算符使用戶能夠編寫在NeuronCore上天然運行的C++自定義運算符。用戶可以使用標準的PyTorch自定義運算符編程接口將CPU 自定義運算符遷移到Neuron 并實現(xiàn)新的實驗運算符,所有這些都無需對NeuronCore 硬件有任何深入了解。
NeuronLink v2——Inf2實例是AmazonEC2類型中首個將NeuronLink V2 用于推理優(yōu)化的實例,NeuronLink v2 為Inferentia2芯片間的提供超高速連接,加強分布式推理性能。NeuronLink v2使用all-reduce等聚合通信(CC)運算符,將高性能推理管道擴展到所有的推理芯片上。
新Inf2實例現(xiàn)已可用
用戶可在亞馬遜云科技美東(俄亥俄州)和美東(北弗吉尼亞州)地區(qū)啟動Inf2實例,以按需、預留和競價實例或Savings Plan方式調(diào)用。用戶僅需為其實際使用的服務付費。如需了解更多相關信息,請訪問Amazon EC2定價網(wǎng)站。
Inf2實例可使用亞馬遜云科技深度學習鏡像進行部署,并可通過Amazon SageMaker、Amazon Elastic Kubernetes Service(Amazon EKS)、Amazon Elastic Container Service(Amazon ECS)和Amazon ParallelCluster等托管服務調(diào)用。
如需了解更多信息,請訪問Amazon EC2 Inf2實例頁面,并將相關反饋發(fā)送給Amazon re:Post for EC2;或垂詢您的AmazonSupport聯(lián)系人。
審核編輯:湯梓紅
-
半導體
+關注
關注
335文章
28342瀏覽量
230109 -
AI
+關注
關注
87文章
33553瀏覽量
274186 -
亞馬遜
+關注
關注
8文章
2690瀏覽量
84313 -
深度學習
+關注
關注
73文章
5547瀏覽量
122301 -
生成式AI
+關注
關注
0文章
524瀏覽量
680
發(fā)布評論請先 登錄
相關推薦
Banana Pi 發(fā)布 BPI-AI2N & BPI-AI2N Carrier,助力 AI 計算與嵌入式開發(fā)
聚云科技榮獲亞馬遜云科技生成式AI能力認證
聚云科技榮獲亞馬遜云科技生成式AI能力認證 助力企業(yè)加速生成式AI應用落地
Qwen大模型助力開發(fā)低成本AI推理方案
生成式AI推理技術、市場與未來

NeuroBlade攜手亞馬遜EC2 F2實例,加速數(shù)據(jù)分析
亞馬遜云科技發(fā)布Amazon Trainium2實例
Amazon Bedrock全新升級,引領生成式AI應用新紀元
Amazon Bedrock推出多個新模型和全新強大的推理和數(shù)據(jù)處理功能

亞馬遜云科技宣布Amazon Trainium2實例正式可用

亞馬遜云科技宣布Amazon EC2 P5e實例正式可用 由英偉達H200 GPU提供支持
Mistral Large 2現(xiàn)已在Amazon Bedrock中正式可用
亞馬遜云科技宣布基于自研Amazon Graviton4的Amazon EC2 R8g實例正式可用
基于瑞薩RZ/V2H AI微處理器的解決方案:高性能視覺AI系統(tǒng)

評論