神武八荒一颗小说,好看的电视剧,女人书籍排行榜

電子發燒友網報道（文/李彎彎）隨著人工智能技術的快速發展，對于計算能力的需求日益增長。特別是在大模型訓練方面，對算力的需求更是呈現指數級增長。傳統的單卡計算已經無法滿足大模型訓練的需求，因此，采用多卡集群的方式成為了必然的選擇。

2023年底，摩爾線程推出首個全國產千卡千億模型訓練平臺“摩爾線程KUAE智算中心”。摩爾線程相關負責人此前談到，百卡或更小規模都是實驗性的，千卡才是大集群的基本單元，只有千卡及以上才能滿足一些基礎模型的算力需求。

國產千卡集群完成大模型訓練測試

日前，摩爾線程官方宣布，聯合羽人科技，已成功實現了夸娥（KUAE）千卡智算集群與羽人系列模型解決方案的訓練兼容適配，高效完成了70億參數羽人大語言模型YuRen-7b的訓練測試。

測試結果顯示，訓練效率達到預期，夸娥千卡智算集群展現出了高度的兼容性和穩定性。未來，羽人科技的零代碼訓練平臺將遷移到摩爾線程夸娥千卡智算集群。

在今年5月27日，摩爾線程聯合無問芯穹宣布，雙方在近日正式完成基于國產全功能GPU千卡集群的3B規模大模型實訓。該模型名為“MT-infini-3B”，在摩爾線程夸娥（KUAE）千卡智算集群與無問芯穹AIStudio PaaS平臺上完成了高效穩定的訓練。

MT-infini-3B模型訓練總用時13.2天，經過精度調試，實現全程穩定訓練不中斷，集群訓練穩定性達到100%，千卡訓練和單機相比擴展效率超過90%。

5月29日，摩爾線程又與國內領先的數據智能服務商滴普科技共同宣布，摩爾線程“夸娥”（KUAE）千卡智算集群與滴普企業大模型Deepexi v1.0已完成訓練、推理適配，獲得產品兼容互認證明。

基于摩爾線程夸娥千卡智算集群，滴普科技成功完成了LLaMA2 700億參數大語言模型的預訓練測試。訓練時長共計77小時，全程無故障連續運行，集群訓練穩定性達到100%，訓練效率和兼容性均達到預期。

可以看到，摩爾線程全國產夸娥千卡智算集群在大模型訓練上展現出足夠的實力。摩爾線程夸娥方案基于全功能MTT S4000 GPU，提供軟硬一體化的全棧解決方案，具備模型覆蓋、推理加速、CUDA兼容、斷點續訓、分布式訓練、集群可靠性等8大核心能力。

MTT S4000是摩爾線程推出的大模型智算加速卡，采用第三代MUSA內核，單卡支持48GB顯存容量和768GB/s的顯存帶寬，FP16算力為100TFLOPS。借助摩爾線程自研開發工具，MTT S4000計算卡可以充分利用現有CUDA軟件生態，實現CUDA代碼零成本遷移到MUSA平臺。

大模型訓練用千卡集群搭建需要關注的重點

可以看到，國產千卡集群已經取得實質性突破，在性能上能夠達到國際先進水平，在應用上，已經有多個大模型實訓案例。同時，國產企業也在積極構建和完善生態系統。

事實上，用于大模型訓練的千卡集群的搭建并不容易，需要注意多方面的事情。如基礎設施搭建方面，首先要考慮硬件的選擇，需要選擇高性能的GPU或TPU作為核心計算單元，才能夠提供必要的計算能力和加速訓練過程。其次是網絡互聯，構建能夠支持萬卡級別高速互聯的智算集群，才能確保各個計算單元之間的數據傳輸效率和穩定性。還有分布式存儲，需要配置分布式存儲系統，滿足大模型訓練過程中大規模數據的存儲和訪問需求。

除了GPU的選擇，網絡互聯也是千卡集群建設需要關注的重點。大模型訓練千卡集群互聯要求高，這樣能夠確保集群的高效、穩定和可靠運行。

具體來看，首先需要高帶寬與與低時延，大規模GPU集群中，模型訓練對卡間互聯的帶寬和時延提出更高要求，特別是在萬億參數量模型中，網絡節點可能由百卡組建的“超節點”構成，單次通信數據量雖小但通信頻繁，因此需要高帶寬支持以實現快速數據傳輸。低時延同樣重要，因為在大模型訓練中，任何延遲都可能影響訓練效率。

其次需要高效互聯拓撲，隨著智算中心向千卡萬卡級別的全互聯方向演進，傳統的直連拓撲結構不再適用。集群需要采用更高效、更先進的互聯拓撲結構，如全向智感互聯（OISA）設計方案，以突破大規模卡間互聯的技術瓶頸。

再者還需要支持大規模擴展，千卡集群的互聯方案需要支持從單機多卡到多機多卡、從單卡到千卡集群的無縫擴展。這要求互聯方案具有良好的可擴展性，能夠隨著集群規模的增長而靈活調整。

另外還要考慮穩定性和可靠性、安全性、兼容性等。大模型訓練千卡集群的互聯方案有多種，如RDMA（遠程直接內存訪問）網絡，RDMA允許計算機之間的內存直接訪問，無需操作系統和CPU的干預，從而大大降低了通信延遲，提高了數據傳輸速率。在千卡集群中，RDMA網絡可以確保節點間的高效數據傳輸，支持大規模的分布式訓練任務。

NVLink高速互聯，NVLink是NVIDIA開發的一種GPU間高速互聯技術，專為GPU到GPU的通信而設計。它提供了比PCIe更高的帶寬和更低的延遲，適用于多GPU系統內的數據共享和通信。在千卡集群中，可以使用NVLink連接GPU服務器，實現節點內部GPU間的高效互聯。

高性能交換機與網絡拓撲，使用高性能交換機，如InfiniBand交換機或以太網交換機，來構建集群的網絡拓撲。網絡拓撲設計需要考慮集群的規模和通信需求，以確保所有節點之間的低延遲和高帶寬連接。可能的網絡拓撲包括全連接、部分連接或基于交換機的層次化結構。

還有多路徑數據傳輸、全向智感互聯（OISA）設計方案等，OISA是一個新興的設計方案，旨在解決大規模卡間互聯的技術瓶頸。OISA通過優化網絡協議和拓撲結構，實現了更高的帶寬、更低的延遲和更好的擴展性。該方案適用于需要高效通信的大規模GPU集群。

寫在最后

千卡集群主要是用于處理大規模、高復雜度的計算任務，特別是在人工智能（AI）、深度學習、大模型訓練等領域。而此前這種集群的建設都依賴國外的GPU，而如今，可以看到，全國產的千卡集群正在不斷進步和完善，在當下國際GPU產品對中國限售的背景下，這對于國內人工智能，尤其是大模型的長遠發展具有深遠意義。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

gpu

gpu

+關注

關注
28

文章
4921

瀏覽量
130812
AI

AI

+關注

關注
88

文章
34588

瀏覽量
276199
大模型

大模型

+關注

關注
2

文章
3062

瀏覽量
3908

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

國產千卡GPU集群完成大模型訓練測試，極具高兼容性和穩定性

評論