在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

關于AI網絡的五個基本要點

是德科技KEYSIGHT ? 來源:是德科技KEYSIGHT ? 2024-12-18 15:48 ? 次閱讀

隨著大模型的興起,為了應對新的AI應用,AI或算力數據中心建設如火如荼。

無論是作為聊天機器人,推薦系統還是在各個領域中實現流程自動化,比如無人駕駛、人臉識別;AI技術都有望提升并加速眾多企業和公共設施的運營,甚至改變人們的生活方式。

然而,AI網絡或算力網絡作為一個概念,常常讓人感到困惑且被誤解,AI和算力需要網絡么?

在本文中,我們將探討關于AI網絡的五個基本要點,以及隨著AI的發展,網絡所面臨的獨特挑戰。

GPU是AI的核心

簡單來說,AI的核心是圖形處理單元(GPU)或神經處理單元(NPU)。

過去,我們通常認為中央處理單元(CPU)是計算機的核心。但GPU的優勢在于,它在執行數學計算特別是矩陣計算方面非常出色,從某種角度來說,與人腦神經元更接近。

CPU時代的數據中心網絡處理的大多是供人閱讀的文字或多媒體,典型的就是網站的瀏覽、文件傳輸以及觀看視頻,數據中心往往能夠同時支持數億人的同時在線及高速的視頻碼流傳輸。

而在構建大語言模型或深度學習模型時,需要讓GPU進行“訓練”,這涉及到解決可能包含數十億參數的矩陣和梯度運算。GPU的計算非常的快,整個“訓練”過程異常嚴苛,不允許有任何的錯誤發生,一旦發生錯誤或延遲,整個“訓練”的周期就會被拉長。這樣的運算量,以及對無損和低延時的要求,對于傳統的數據中心而言,突然就變得捉襟見肘了。

AI訓練任務由多GPU協同完成

大語言模型在訓練的參數和模型復雜度上有非常明顯的提升,完成這些計算必須讓多達上千個GPU共同處理訓練任務,即便如此,訓練或微調大模型也可能需要數周甚至數月的時間。

一般的多GPU互聯的架構是將一組GPU服務器放置在機架中,并通過機架頂部的交換機相互連接。機架與機架通過CLOS網絡結構將它們全部連接起來。隨著解決問題復雜性的提升,對GPU的需求也會增加,有些情況下單個數據中心的電力不足以支持的時候,甚至需要跨數據中心連接通信來完成更大型的訓練任務。

AI集群是一臺超級計算機

在構建AI集群時,不僅僅要將GPU相互連接,更需要把它作為一個系統,解決很多錯誤和優化的問題。正因為AI集群的規模不斷的上升,其中任何單點錯誤會導致整體訓練任務的失敗或效率低下,整個系統的組成部件比如模塊、線纜、交換機、網卡、服務器、存儲甚至電源,冷卻系統等,都會影響整個系統的執行和維護。AI集群已經慢慢由一個組網變成為一臺超級計算機,越來越多的工作將會圍繞在部件之間的協同而不僅是部件內部的單點優化展開。

網絡成為了訓練效率的關鍵瓶頸

在去年秋天的開放計算項目(OCP)全球峰會上,Marvell Technology的Loi Nguyen指出,網絡成為了AI部署的新瓶頸。GPU在解決計算問題或處理訓練負載方面非常有效。然而,進行并行計算的GPU在完成本身處理的信息之外需要獲取其他GPU處理完成的信息,彼此之間需要相互通信和同步。

如果一個GPU無法獲取所需信息,或者同步需要較長時間,其他所有GPU都必須等待,直到協作任務完成。在技術層面上,由網絡擁塞導致的數據包延遲或丟失可能會引發數據包重傳,顯著增加任務完成時間(JCT)。

這意味著價值數百萬甚至數千萬美元的GPU長時間處于閑置狀態,從而導致AI產品的上市時間延遲并影響公司的財務成果。

測試對于AI網絡至關重要

為了確保AI集群的高效運行,需要網絡對GPU協同作業可能存在的擁塞和錯誤有提前的感知以及良好的應對。

這要求對網絡處理AI負載的性能進行詳盡的測試和基準評估。但這并非易事,因為GPU協同作業的負載區別于傳統網絡的流量負載,微突發、大象流、低熵是比較典型的特征。

因此,在測試AI網絡時,我們會面臨諸多挑戰:

? GPU短缺,無法復刻生產網絡環境或無法長時間復現問題。

?在生產系統上進行測試可能會降低系統的處理能力。

?系統內的部件不能提供足夠的日志及調試能力,無法準確定位問題。

?此外,獲取GPU之間集合通信更細節的信息,比如 Queue-Pair 的信息是一個挑戰。

為了應對這些挑戰,可以首先在實驗室環境中對建議配置的一個子集或小的組網進行測試,對關鍵參數進行基準測試,比如任務完成時間(JCT)、AI集群可達到的帶寬,以及這些參數與網絡利用率和交換機緩存消耗的比較。

這種基準測試有助于找到GPU/工作負載與網絡設計/參數設置之間的平衡。當計算架構師和網絡工程師對結果滿意時,他們可以將這些設置應用于生產環境,并測量新的結果。

結論

為了充分利用AI算力,必須對AI網絡的設備和基礎設施進行優化。

企業和學術界正在提出更多好的架構和算法來優化AI系統的各個部件及部件間協同,以應對未來更多AI應用給大型網絡帶來的挑戰。

測試對AI系統非常關鍵,只有通過確定可重復的測試,行業才能實現從探索性實驗到可交付的迭代,這會是優化AI這臺超級計算機的基礎。

關于是德科技

是德科技(NYSE:KEYS)啟迪并賦能創新者,助力他們將改變世界的技術帶入生活。作為一家標準普爾 500 指數公司,我們提供先進的設計、仿真和測試解決方案,旨在幫助工程師在整個產品生命周期中更快地完成開發和部署,同時控制好風險。我們的客戶遍及全球通信、工業自動化、航空航天與國防、汽車、半導體和通用電子等市場。我們與客戶攜手,加速創新,創造一個安全互聯的世界。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4882

    瀏覽量

    130404
  • 網絡
    +關注

    關注

    14

    文章

    7713

    瀏覽量

    90162
  • AI
    AI
    +關注

    關注

    87

    文章

    33554

    瀏覽量

    274259
  • 是德科技
    +關注

    關注

    21

    文章

    966

    瀏覽量

    82971

原文標題:關于AI網絡你應該知道的五件事

文章出處:【微信號:是德科技KEYSIGHT,微信公眾號:是德科技KEYSIGHT】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    【「零基礎開發AI Agent」閱讀體驗】+關于AI Agent開發入門的第一印象與相關官方文檔和社區資料的內容補充

    今天有幸收到了電子發燒友寄來的由中國工信出版集團和電子工業出版社聯合出版的關于AI Agent開發的《零基礎開發AI Agent》的新書,不禁高興雀躍,以下是我拍下的書的頁封和背面: 大家可以看到
    發表于 04-22 18:16

    【「零基礎開發AI Agent」閱讀體驗】+初品Agent

    期待中的《零基礎開發AI Agent——手把手教你用扣子做智能體》終于寄到了,該書由葉濤、 管鍇、張心雨完成,并由電子工業出版社出版發行。 全書分為三部分,即入門篇、工具篇及實踐篇。由此可見這是
    發表于 04-22 11:51

    首創開源架構,天璣AI開發套件讓端側AI模型接入得心應手

    科正將AI能力體系化并賦能終端生態。 大會上,聯發科定義了“智能體化用戶體驗”的大特征:主動及時、知你懂你、互動協作、學習進化和專屬隱私信息守護。這大特征需要跨越從芯片、模型、應用、終端乃至整個
    發表于 04-13 19:52

    適用于數據中心和AI時代的800G網絡

    數據中心依賴數千甚至上萬GPU集群進行高性能計算,對帶寬、延遲和數據交換效率提出極高要求。 AI云:以生成式AI為核心的云平臺,為多租戶環境提供推理服務。這類數據中心要求網絡
    發表于 03-25 17:35

    【「AI Agent應用與項目實戰」閱讀體驗】書籍介紹

    會追根溯源,讓你有種“大徹大悟”的感覺。 這本書主要講大語言模型的內容,教我們做一AI Agent應用出來,其實這個東西現在也叫智能體了,他跟我們平常使用大語言模型有不同點在于他會專注某個領域
    發表于 03-05 20:40

    巨人網絡與阿里云深化AI合作

    巨人網絡近日宣布與阿里云進一步深化合作關系,雙方將在游戲場景的AI落地應用及算力生態建設等領域展開更為緊密的合作,共同推動AI技術與巨人網絡業務的深度融合。 基于近年來在“游戲+
    的頭像 發表于 02-14 14:06 ?382次閱讀

    關于卷積神經網絡,這些概念你厘清了么~

    必須通過決策閾值做出決定。 另一區別是AI并不依賴固定的規則,而是要經過訓練。訓練過程需要將大量貓的圖像展示給神經網絡以供其學習。最終,神經網絡將能夠獨立識別圖像中是否有貓。關鍵的一
    發表于 10-24 13:56

    AI for Science:人工智能驅動科學創新》第4章-AI與生命科學讀后感

    很幸運社區給我一閱讀此書的機會,感謝平臺。 《AI for Science:人工智能驅動科學創新》第4章關于AI與生命科學的部分,為我們揭示了人工智能技術在生命科學領域中的廣泛應用和
    發表于 10-14 09:21

    AI for Science:人工智能驅動科學創新》第二章AI for Science的技術支撐學習心得

    非常高興本周末收到一本新書,也非常感謝平臺提供閱讀機會。 這是一本挺好的書,包裝精美,內容詳實,干活滿滿。 關于AI for Science:人工智能驅動科學創新》第二章“AI
    發表于 10-14 09:16

    pcb設計中布局的要點是什么

    在PCB設計中,布局是一非常重要的環節,它直接影響到電路的性能、可靠性和成本。以下是關于PCB布局的一些要點,這些要點將幫助您設計出高質量的PCB。 確定設計目標和要求 在開始布局之
    的頭像 發表于 09-02 14:48 ?698次閱讀

    六類網絡模塊與網絡模塊區別

    六類網絡模塊與網絡模塊在多個方面存在顯著差異,以下是對兩者區別的詳細分析: 一、傳輸速率 六類網絡模塊:支持高達10Gbps的傳輸速率,能夠滿足大容量數據傳輸和高頻率應用的需求。這
    的頭像 發表于 07-30 10:05 ?2721次閱讀

    OpenAI公布AI發展的階段

    北京時間7月12日,OpenAI為追蹤其人工智能(AI)技術追趕并超越人類智能的進程,正式公布了AI發展的階段性劃分,旨在加深公眾對公司AI
    的頭像 發表于 07-12 15:50 ?3709次閱讀

    ESP8266如何連接Wifi網絡

    正如我在文檔中讀到的那樣,ESP8266最多可以連接 Wifi 網絡。但我無法做到這一點。在啟動過程中,我使用以下代碼將最大網絡數設置為 5: printf(\"err:%irn
    發表于 07-10 07:11

    中國移動揭曉關于人工智能生態發展的100計劃

    的宏偉藍圖——“100”計劃。該計劃旨在通過開放百項AI融合應用場景、匯聚百家頂尖合作伙伴、設立百億級權益支持基金、解鎖百項核心技術要素,并培育百萬量級智能實體,全面加速AI生態的
    的頭像 發表于 07-08 16:56 ?1651次閱讀

    生成式AI與神經網絡模型的區別和聯系

    生成式AI與神經網絡模型是現代人工智能領域的兩核心概念,它們在推動技術進步和應用拓展方面發揮著至關重要的作用。本文將詳細探討生成式AI與神經網絡
    的頭像 發表于 07-02 15:03 ?1394次閱讀
    主站蜘蛛池模板: 天堂网在线.www天堂在线 | 天天插天天爽 | 国产小视频免费 | 狠狠色噜噜狠狠狠狠97 | 亚洲大香伊人蕉在人依线 | 日本h视频在线 | 国产一区二区三区在线影院 | 中文字幕在线一区二区三区 | 色多多高清在线观看视频www | 1024视频在线观看国产成人 | 欧美福利一区 | 免费人成网站线观看合集 | 九九碰 | 最近的中文字幕免费动漫视频 | 久久久久久国产精品免费免 | 精品卡1卡2卡三卡免费视频 | 亚洲欧美日韩另类精品一区二区三区 | 高清欧美日本视频免费观看 | 欧美影欧美影院免费观看视频 | 欧美综合色 | 91啦中文在线观看 | 国产性较精品视频免费 | 国产视频分类 | 欧美午夜精品 | aaa一级 | 亚洲午夜久久久精品影院 | 国产午夜爽爽窝窝在线观看 | 狠狠做深爱婷婷久久一区 | 色综合久久久久久久久久久 | 7777在线| 久婷婷| 国产精品资源站 | 国产精品久久久久影院免费 | 在线播放91灌醉迷j高跟美女 | 一级做受毛片免费大片 | 免费一级欧美在线观看视频片 | 久青草国产手机视频免费观看 | 色多多黄 | 久久免费观看国产精品 | 男女免费在线视频 | 天堂在线中文无弹窗全文阅读 |