在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

9個為人工智能、機器學習和深度學習準備數據中心的優秀實踐

如意 ? 來源:企業網D1Net ? 作者:HERO編譯 ? 2020-10-09 15:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

圍繞圖形處理單元(GPU)計算的生態系統如今正在迅速發展,以提高GPU工作負載的效率和可擴展性。然而,在避免存儲和網絡中潛在的瓶頸的同時,也有一些技巧可以很大限度地提高GPU的利用率。

人工智能機器學習深度學習應用程序的密集需求對數據中心的性能、可靠性和可擴展性提出了挑戰,尤其是在IT架構師模仿公共云的設計以簡化向混合云和內部部署的過渡時。

Excelero公司首席技術官Sven Breuner和首席架構師Kirill Shoikhet為此分享了9個為人工智能、機器學習和深度學習準備數據中心的優秀實踐。

數據點1:了解目標系統性能、投資回報率和可擴展性計劃。

隨著人工智能成為核心業務的重要組成部分,大多數組織都從最初的少量預算和少量培訓數據集入手,并為無縫快速的系統增長準備基礎設施。需要構建所選的硬件和軟件基礎設施,以實現靈活的橫向擴展,以避免在每個新的增長階段產生破壞性的變化。數據科學家與系統管理員之間的密切協作對于了解性能要求,并了解基礎設施可能需要隨著時間的發展而變得至關重要。

數據點2:現在或將來評估集群多個GPU系統。

在一臺服務器中采用多個GPU可以在系統內部實現有效的數據共享和通信,并具有成本效益,參考設計假定將來可以集群使用,并且在單個服務器中最多支持16個GPU。多個GPU服務器需要準備好以很高的速率讀取傳入的數據,以使GPU高效運行,這意味著它需要一個超高速的網絡連接,以及用于訓練數據庫的存儲系統。但是在某個時候,單臺服務器將不再足以在合理的時間內處理增長的訓練數據庫,因此在設計中構建共享存儲基礎設施將使隨著人工智能、機器學習、深度學習使用的擴展,添加GPU服務器變得更容易。

數據點3:評估人工智能工作流程各個階段的瓶頸。

數據中心基礎設施需要能夠同時處理人工智能工作流程的所有階段。對于具有成本效益的數據中心來說,擁有一個可靠的資源調度和共享概念是至關重要的。因此,盡管數據科學家獲得了需要攝取和準備的新數據,但其他人將訓練他們的可用數據,而其他人則使用先前生成的模型進行訓練用于生產。Kubernetes已成為解決這一問題的一種主要解決方案,使云計算技術易于在內部部署使用,并使混合部署變得可行。

數據點4:查看用于優化GPU利用率和性能的策略。

許多人工智能、機器學習、深度學習應用程序的計算密集型性質使基于GPU的服務器成為常見選擇。但是,盡管GPU可以有效地從內存加載數據,但是訓練數據集通常遠遠超過內存,并且涉及的大量文件變得更加難以攝取。在GPU服務器之間以及與存儲基礎設施之間,實現GPU數量與可用CPU功率、內存和網絡帶寬之間的優秀平衡至關重要。

數據點5:支持訓練和推理階段的需求。

在訓練系統“看貓”的經典示例中,計算機執行一個數字游戲,需要查看大量不同顏色的貓。由于包含大量并行文件讀取的訪問的性質,NVMe閃存通過提供超低的訪問延遲和每秒的大量讀取操作很好地滿足了這些要求。在推理階段,挑戰是相似的,因為對象識別通常是實時發生的——另一個使用案例中,NVMe閃存也提供了延遲優勢。

數據點6:考慮并行文件系統和替代方案。

諸如IBM公司的SpectrumScale或BeeGFS之類的并行文件系統可以幫助有效地處理大量小文件的元數據,并通過在網絡上每秒交付數萬個小文件,從而使機器學習數據集的分析速度提高3到4倍。鑒于訓練數據的只讀性質,因此在將數據卷直接提供給GPU服務器并通過Kubernetes之類的框架以共享方式共享它們時,也可以完全避免使用并行文件系統。

數據點7:選擇正確的網絡主干。

人工智能、機器學習、深度學習通常是一種新的工作負載,將其重新安裝到現有的網絡基礎設施中通常無法支持復雜計算和快速高效數據傳輸所需的低延遲、高帶寬、高消息速率和智能卸載。基于RDMA的網絡傳輸RoCE(融合以太網上的RDMA)和InfiniBand已成為滿足這些新需求的標準。

數據點8:考慮四個存儲系統的性價比杠桿。

(1)高讀取吞吐量和低延遲,不限制混合部署,可以在云平臺或內部部署資源上運行。

(2)數據保護。人工智能、機器學習、深度學習存儲系統通常比數據中心中的其他系統要快得多,因此在發生故障后從備份中恢復可能會花費很長時間,并且會中斷正在進行的操作。深度學習訓練的只讀性質使其非常適合于分布式擦除編碼,在這種存儲中,最高容錯能力已經內置在主存儲系統中,原始容量和可用容量之間的差異很小。

(3)容量彈性可適應任何大小或類型的驅動器,以便隨著閃存介質的發展和閃存驅動器特性的擴展,數據中心可以在最重要的情況下很大限度地提高性價比。

(4)性能。由于人工智能數據集需要隨著時間的推移而增長,以進一步提高模型的準確性,因此存儲基礎設施應實現接近線性的縮放系數,在這種情況下,每增加一次存儲都會帶來同等的增量性能。這使得組織可以從小規模開始,并根據業務需要而無中斷地增長。

數據點9:設置基準和性能指標以幫助實現可擴展性。

例如,對于深度學習存儲,一個重要指標可能是每個GPU每秒處理X個文件(通常為數千或數萬個),其中每個文件的平均大小為Y(從幾十個到數千個)kB 。預先建立適當的基準和性能指標有助于從一開始就確定架構方法和解決方案,并指導后續擴展。
責編AJX

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    88

    文章

    34936

    瀏覽量

    278367
  • 機器學習
    +關注

    關注

    66

    文章

    8500

    瀏覽量

    134476
  • 深度學習
    +關注

    關注

    73

    文章

    5559

    瀏覽量

    122732
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    如何有效地管理人工智能數據中心的電源

    作者:Kenton Williston 投稿人:DigiKey 北美編輯 人工智能 (AI) 和機器學習 (ML) 的興起提出了前所未有的電力需求。下一代數據中心在電源管理、效率和可靠
    的頭像 發表于 05-25 11:30 ?236次閱讀
    如何有效地管理<b class='flag-5'>人工智能</b><b class='flag-5'>數據中心</b>的電源

    數學專業轉人工智能方向:考研/就業前景分析及大學四年學習路徑全揭秘

    隨著AI技術的不斷進步,專業人才的需求也日益增長。數學作為AI的基石,為機器學習深度學習數據分析等提供了理論基礎和工具,因此越來越多的數
    的頭像 發表于 02-07 11:14 ?1049次閱讀
    數學專業轉<b class='flag-5'>人工智能</b>方向:考研/就業前景分析及大學四年<b class='flag-5'>學習</b>路徑全揭秘

    人工智能機器學習以及Edge AI的概念與應用

    人工智能相關各種技術的概念介紹,以及先進的Edge AI(邊緣人工智能)的最新發展與相關應用。 人工智能機器學習是現代科技的核心技術
    的頭像 發表于 01-25 17:37 ?904次閱讀
    <b class='flag-5'>人工智能</b>和<b class='flag-5'>機器</b><b class='flag-5'>學習</b>以及Edge AI的概念與應用

    人工智能對數據中心基礎設施帶來了哪些挑戰

    在加密貨幣和人工智能/機器學習(AI/ML)等新興應用的驅動下,數據中心的能耗巨大,并將快速增長以滿足用戶需求。根據國際能源署(IEA)的最新報告,2022 年
    發表于 12-31 13:48 ?397次閱讀
    <b class='flag-5'>人工智能對數據中心</b>基礎設施帶來了哪些挑戰

    【「具身智能機器人系統」閱讀體驗】+數據在具身人工智能中的價值

    嵌入式人工智能(EAI)將人工智能集成到機器人等物理實體中,使它們能夠感知、學習環境并與之動態交互。這種能力使此類機器人能夠在人類社會中有效
    發表于 12-24 00:33

    人工智能工程師高頻面試題匯總——機器學習

    隨著人工智能技術的突飛猛進,AI工程師成為了眾多求職者夢寐以求的職業。想要拿下這份工作,面試的時候得展示出你不僅技術過硬,還得能解決問題。所以,提前準備一些面試常問的問題,比如機器學習
    的頭像 發表于 12-04 17:00 ?1504次閱讀
    <b class='flag-5'>人工智能</b>工程師高頻面試題匯總——<b class='flag-5'>機器</b><b class='flag-5'>學習</b>篇

    嵌入式和人工智能究竟是什么關系?

    、連接主義和深度學習等不同的階段。目前,人工智能已經廣泛應用于各種領域,如自然語言處理、計算機視覺、智能推薦等。 嵌入式系統和人工智能在許
    發表于 11-14 16:39

    人工智能對數據中心的挑戰

    在加密貨幣和人工智能/機器學習(AI/ML)等新興應用的驅動下,數據中心的能耗巨大,并將快速增長以滿足用戶需求。根據國際能源署(IEA)的最新報告,2022 年
    的頭像 發表于 11-13 16:05 ?757次閱讀
    <b class='flag-5'>人工智能對數據中心</b>的挑戰

    具身智能機器學習的關系

    具身智能(Embodied Intelligence)和機器學習(Machine Learning)是人工智能領域的兩重要概念,它們之間存
    的頭像 發表于 10-27 10:33 ?1026次閱讀

    人工智能機器學習深度學習存在什么區別

    人工智能指的是在某種程度上顯示出類似人類智能的設備。AI有很多技術,但其中一很大的子集是機器學習——讓算法從
    發表于 10-24 17:22 ?2936次閱讀
    <b class='flag-5'>人工智能</b>、<b class='flag-5'>機器</b><b class='flag-5'>學習</b>和<b class='flag-5'>深度</b><b class='flag-5'>學習</b>存在什么區別

    《AI for Science:人工智能驅動科學創新》第二章AI for Science的技術支撐學習心得

    人工智能在科學研究中的核心技術,包括機器學習深度學習、神經網絡等。這些技術構成了AI for Science的基石,使得AI能夠處理和分析
    發表于 10-14 09:16

    《AI for Science:人工智能驅動科學創新》第一章人工智能驅動的科學創新學習心得

    人工智能:科學研究的加速器 第一章清晰地闡述了人工智能作為科學研究工具的強大功能。通過機器學習深度
    發表于 10-14 09:12

    FPGA在人工智能中的應用有哪些?

    定制化的硬件設計,提高了硬件的靈活性和適應性。 綜上所述,FPGA在人工智能領域的應用前景廣闊,不僅可以用于深度學習的加速和云計算的加速,還可以針對特定應用場景進行定制化計算,為人工智能
    發表于 07-29 17:05

    如何在Python中開發人工智能

    在Python中開發人工智能(AI)是一廣泛而深入的主題,它涵蓋了從基礎的數據處理到復雜的機器學習
    的頭像 發表于 07-15 15:01 ?3645次閱讀

    深度學習在視覺檢測中的應用

    能力,還使得機器能夠模仿人類的某些智能行為,如識別文字、圖像和聲音等。深度學習的引入,極大地推動了人工智能技術的發展,特別是在圖像識別、自然
    的頭像 發表于 07-08 10:27 ?1266次閱讀
    主站蜘蛛池模板: 欧色视频 | 在线播放91灌醉迷j高跟美女 | 亚洲啪啪| 色老久久精品偷偷鲁一区 | 俄罗斯久久 | 国产免费黄视频 | 欧美黄色片免费看 | 五月婷花| www.色播| 亚洲人成网i8禁止 | 天天色天天操天天 | 美女网站色在线观看 | 五月天久久婷婷 | 夜夜做日日做夜夜爽 | 欧美性一区 | 午夜影院普通用户体验区 | 黄网在线免费观看 | 午夜影院在线观看视频 | 午夜美女影院 | 国产欧美另类第一页 | 欧美一级欧美三级在线观看 | 欧美一卡二卡3卡4卡无卡六卡七卡科普 | 伊人久久大香线蕉综合高清 | 人与牲动交xxxbbb | 高清色视频 | 欧美色欧美亚洲高清在线视频 | 天天天天做夜夜夜夜 | 国模谢心2013.05.06私拍 | bt天堂在线最新版www | 欧美高清一级 | 成人在线一区二区 | 一卡二卡三卡四卡无卡在线 | 亚洲free| 97视频免费上传播放 | bt天堂新版中文在线地址 | 69日本xxxxxxxxx56| 六月天丁香婷婷 | 色综合天天综合网看在线影院 | 国产大乳美女挤奶视频 | 永久观看| 黄网站色视频免费看无下截 |