急得滿頭大汗的小王看向悠閑喝茶的小李道:你怎么不緊不慢的?剛剛主任發的緊急任務做完了?
小李得意的說:這年頭,偷偷用一下AI就搞定啦~
一旁的小張插進來:你還敢用!不怕安全部門找你啊!
小王聽罷,還是老老實實埋頭苦干吧。
隨著各種AI“超級助手”的不斷升級,各行各業的員工使用其幫助提高工作效率的比例可能比想象中高得多。
根據微軟和領英聯合開展的一項調查顯示,自今年5月起到過去的6個月里,全球78%的知識型員工秘密地將自己的AI工具(BYOAI)帶入到工作中,且這一現象在中小型公司中更為常見(80%)。
雖然這種方式提高了效率,但難以忽視一些關鍵信息被放在公共模型中帶來的?險。幸運的是,眾多企業意識到采用人工智能的重要性,將重點轉向通過實施AI實現利益最大化的發展戰略。不過,在進行訓練階段又陷入了兩難:究竟在本地,還是云端更好呢?
有些企業選擇了云——能夠動態調整計算資源以適應訓練變化的靈活性給眾多管理者會心一擊。其次,云端配備的高性能GPU、TPU等加速器,能夠高效處理大規模數據集和復雜模型,加快訓練速度;易于訪問與協作、通常集成了多種自動化工具和服務的云平臺也極大地簡化了開發流程;并且,由于無需維護硬件設施,在云端訓練AI更具經濟效益。
但是,在云端訓練的缺點也不少:數據傳輸時可能消耗大量的時間和帶寬;盡管采取嚴格的安全措施,卻仍有隱私泄露的風險;當網絡延遲或中斷時,可能中斷訓練過程,影響效率;對于高度定制化的軟硬件需求有一定限制,且在模型訓練好后,將模型部署到本地或其他環境時,可能會遇到兼容性和優化問題。
于是,一些企業選擇可以更好地控制數據與成本,具有網絡獨立性,可完全根據需求定制化硬件和軟件環境,并可直接監控和調試訓練過程、能夠無懼延遲及時反饋問題的本地部署。
然而,本地訓練同樣存在一些問題——硬件資源固定、計算資源有限;需要定期維護與升級設備,增加額外的時間和成本負擔;進行大規模訓練時可能增加能源消耗和冷卻成本;不便于協作等。
同時兼顧云和本地優勢的混合云,或是最優選。
采用混合云訓練AI的一般步驟和考慮因素有:
●架構設計:設計一個能夠跨越本地數據中心和公有云的混合云架構至關重要。通常涉及構建或利用現有的Kubernetes集群,確保本地集群與云服務商的容器服務兼容。
●數據管理與遷移:使用數據同步工具或服務在本地與云端之間高效地移動或緩存數據,確保數據一致性的同時,也能根據訓練需求動態調整數據位置。
●模型開發與訓練:在本地或云上開發AI模型,利用云服務商提供的AI開發平臺和工具進行模型訓練。可以在本地進行初步測試和調試,然后利用公有云的彈性GPU資源進行大規模并行訓練。
●彈性資源擴展:根據訓練任務的需求,動態擴展公有云商的計算資源。如在需要大量計算是自動或手動增加云上GPU實例的數量,訓練完成后釋放資源以降低成本。
●模型推理與部署:訓練好的模型可以在混合環境中部署,既可以在本地進行低延遲推理,也可以部署到公有云上,利用云服務的全球分布特性服務于不同地區的用戶。
●監控與優化:實施全面的監控系統,跟蹤模型訓練過程中的資源使用情況、性能指標和成本消耗,不斷優化模型訓練效率和成本效益。
●安全與合規:確保在整個混合云架構中實施嚴格的數據加密、訪問控制和合規措施,特別是在數據傳輸和存儲過程中,保護敏感信息不被泄露。
打通云上云下
讓“魚和熊掌兼得”
作為業界最靈活,最安全和高效的橫向擴展文件存儲平臺之一,PowerScale是戴爾AI解決方案整體架構中最重要的基礎。聚合了多個節點的性能,PowerScale可以完全滿足AI的存儲性能需求,不僅能夠增強模型訓練加載GPU的性能,同時還能提供先進的、經過驗證的可用性、數據保護、安全性和多租戶等功能。并且,由于能夠輕松擴充數十PB,可大量并發、就地分析、自動分層和簡單管理,PowerScale對于基于文本的模型訓練或推理沒有明顯的瓶頸,十分適合AI模型訓練。
此外,為了解決公司因多年來在數據中心、邊緣和云部署中構建和使用多種不同類型的存儲、存儲設備而導致的“同時跨多個位置管理數據”難題,戴爾還全面推出了適用于Azure的戴爾APEX文件存儲,不僅彌合了云存儲和AI驅動的見解之間的巨大差距,還支持靈活支付費用,為用戶提供極大的便利。
適用于Azure的戴爾APEX文件存儲的核心是戴爾PowerScale OneFS,通過將這個高性能橫向擴展文件存儲解決方案引入Azure云,戴爾使用戶能夠更有效地整合和管理數據,降低存儲成本并增強數據保護和安全性,同時利用原生云AI工具更快地獲得見解。
通過SyncIQ本機復制,它可將文件數據從本地設備快速、無風險、策略驅動地遷移到云。由于OneFS軟件平臺在本地和Azure中是相同的,因此用戶無需對底層存儲架構進行任何更改。一旦進入云,IT團隊就會使用他們已熟悉的用戶界面、命令執行界面(CLI)、API界面和身份管理,方便企業利用現有技能,減少管理數據和技術架構所花費的時間,降低管理復雜性。
適用于Azure的APEX文件存儲可在單個命名空間中支持多達18個節點和5.6PiB,可提供可擴展性和靈活性,同時又不犧牲管理的簡易性,并可實現:
● 集群性能提高6倍
● 命名空間大至11倍
● 每個卷最多可增加23倍快照
● 集群彈性提高2倍
● 橫向擴展到252個節點
另外,APEX文件存儲直接與多種最常見的AI工具(包括Azure AI Studio)集成,利用原生AI工具來支持最苛刻的工作負載。適用于Azure的戴爾APEX文件存儲專為混合云和云爆發用例而設計,無論是傳統IT工作負載還是尖端的人工智能應用程序,它都具有最高的AI規模性能,將AI工作負載推向創新和效率的新高度。
結 語
在數字技術快速發展的時代,多云策略的需求從未如此明顯。通過更加靈活、安全、高效的解決方案,企業不僅能夠從容應對挑戰,還能以前所未有的速度驅動業務增長。作為行業領導者,戴爾科技將繼續以領先的創新、全面的服務,幫助企業更好地適應AI時代。
-
戴爾
+關注
關注
5文章
635瀏覽量
40148 -
數據中心
+關注
關注
16文章
4869瀏覽量
72411 -
AI
+關注
關注
87文章
31616瀏覽量
270445
原文標題:訓練AI在本地還是云端?
文章出處:【微信號:戴爾企業級解決方案,微信公眾號:戴爾企業級解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
AI云端計算資源有哪些類型
PCM1861 INT腳究竟是輸出還是輸入?
超高頻讀寫器究竟是什么,能做什么?一文讀懂!
![超高頻讀寫器<b class='flag-5'>究竟是</b>什么,能做什么?一文讀懂!](https://file1.elecfans.com/web2/M00/0A/F2/wKgaomcYmmGAQVF0AADDQTuwc30094.png)
運放輸入偏置電流的方向是流入運放芯片還是流出運放芯片?這個怎么確定的?
蘋果揭示AI新動向:Apple Intelligence模型在谷歌云端芯片上預訓練
技嘉科技推出GIGABYTE AI TOP,引領本地AI訓練新紀元
技嘉科技于 COMPUTEX 2024 發布 AI TOP 本地 AI 訓練解決方案
請問cH340G的TX引腳電平究竟是3v還是5v?
工業物聯網究竟是什么呢?它又有哪些作用呢?
STM32擦除后數據究竟是0x00還是0xff ?
MOSFET的柵源振蕩究竟是怎么來的?柵源振蕩的危害什么?如何抑制
吸塵器究竟是如何替你“吃灰”的【其利天下技術】
![吸塵器<b class='flag-5'>究竟是</b>如何替你“吃灰”的【其利天下技術】](https://file1.elecfans.com/web2/M00/C3/D7/wKgaomXpHYCADXppAACatvPg2j8630.png)
評論