AI加速的關(guān)鍵杠桿
存儲(chǔ)優(yōu)化
鐵子們誰(shuí)懂啊!昨天不到2小時(shí)跑完的模型,今天突然變成"樹(shù)懶速度"!Tell me why?說(shuō)起“與時(shí)間賽跑”的數(shù)據(jù),AI工程師妥妥破防,這些場(chǎng)面他們已經(jīng)見(jiàn)怪不怪了……
多任務(wù)并行,變成“搶凳子”游戲
當(dāng)自然語(yǔ)言處理、推薦系統(tǒng)和圖像識(shí)別同時(shí)開(kāi)跑,每個(gè)任務(wù)的訓(xùn)練速度呈指數(shù)級(jí)下降,大量時(shí)間浪費(fèi)在等待數(shù)據(jù)加載上。像極了早高峰擠地鐵——誰(shuí)都別想快!
模型迭代,精度與速度孰重?
公司的AI團(tuán)隊(duì)每周模型迭代。隨著數(shù)據(jù)累積到一定程度,模型架構(gòu)也越來(lái)越深,每次完整訓(xùn)練超出計(jì)劃時(shí)長(zhǎng)。團(tuán)隊(duì)含淚在精度和速度之間做起了選擇題。
AI訓(xùn)練減速,存儲(chǔ)系統(tǒng)也要擔(dān)責(zé)
訓(xùn)練速度變得越來(lái)越慢,成了研發(fā)效率和創(chuàng)新節(jié)奏的絆腳石。導(dǎo)致AI訓(xùn)練速度變慢的原因錯(cuò)綜復(fù)雜,別急著甩鍋給算法,也很可能是存儲(chǔ)系統(tǒng)在偷偷"閑置",例如:
1數(shù)據(jù)洪流與存儲(chǔ)帶寬不匹配
現(xiàn)代AI模型訓(xùn)練常需要處理TB甚至PB級(jí)數(shù)據(jù),GPU餓到啃手指,而存儲(chǔ)系統(tǒng)卻還在用吸管喂數(shù)據(jù),大量昂貴的計(jì)算資源一時(shí)無(wú)用武之地。
2隨機(jī)與順序讀取的失衡
AI深度訓(xùn)練時(shí),會(huì)通過(guò)數(shù)據(jù)增強(qiáng)和隨機(jī)采樣技術(shù)對(duì)原始數(shù)據(jù)進(jìn)行旋轉(zhuǎn)、裁剪、打亂等操作,來(lái)獲得更豐富、更多樣化的訓(xùn)練數(shù)據(jù)!但難點(diǎn)是硬盤(pán)得滿場(chǎng)“飛檐走壁”讀數(shù)據(jù),隨機(jī)讀寫(xiě)和順序讀寫(xiě)一旦失衡,容易形成存儲(chǔ)訪問(wèn)瓶頸。
3冷熱數(shù)據(jù)一視同仁
訓(xùn)練過(guò)程中,本應(yīng)享受優(yōu)先待遇的熱數(shù)據(jù),結(jié)果和冷數(shù)據(jù)一起排隊(duì);而本該躺平的冷數(shù)據(jù),卻抓出來(lái)一起卷,結(jié)果緩存擺爛、分布式訓(xùn)練時(shí)全員卡頓。
存儲(chǔ)優(yōu)化,讓數(shù)據(jù)跑起來(lái)!
算力和存儲(chǔ)就像印刷廠的神仙CP,計(jì)算會(huì)像“機(jī)器印刷文字”一樣生成大量token(詞元),而存儲(chǔ)就是“紙張”。AI模型訓(xùn)練,大規(guī)模的算力要求存儲(chǔ)系統(tǒng)提供更高性能的數(shù)據(jù)訪問(wèn),就如印刷機(jī)提速了,紙張的質(zhì)量和供應(yīng)速度也要同頻給力。那如何優(yōu)化存儲(chǔ)呢?
1 智能分層:數(shù)據(jù)科學(xué)分管
智能分層存儲(chǔ)系統(tǒng)通過(guò)實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)訪問(wèn)模式,自動(dòng)將頻繁訪問(wèn)的"熱數(shù)據(jù)"配"超跑",常駐高速存儲(chǔ),將不常訪問(wèn)的冷數(shù)據(jù)妥善保管,"溫?cái)?shù)據(jù)"存在平衡性能與成本的中間層。可顯著提升緩存命中率,減少等待時(shí)間。
2并行存儲(chǔ):突破帶寬瓶頸
分布式存儲(chǔ)系統(tǒng),通過(guò)將數(shù)據(jù)分散在多個(gè)節(jié)點(diǎn)上,實(shí)現(xiàn)了聚合帶寬的線性增長(zhǎng)。把數(shù)據(jù)分散部署,系統(tǒng)統(tǒng)一指揮,團(tuán)隊(duì)?wèi)?zhàn)速!告別"單車(chē)道堵車(chē)",滿足大規(guī)模分布式訓(xùn)練的需求。
作為分布式存儲(chǔ)系統(tǒng)的其中一部分,HDD硬盤(pán)在其中大有作為。東芝MG10系列20TB企業(yè)級(jí)硬盤(pán),采用CMR傳統(tǒng)磁記錄技術(shù),20TB海量存儲(chǔ)空間+7200rpm轉(zhuǎn)速、最大數(shù)據(jù)傳輸速度達(dá)268MiB/s,讓數(shù)據(jù)輸送從"鄉(xiāng)村小路"升級(jí)為"高鐵"!且額定工作負(fù)載高達(dá)550TB/年,平均無(wú)故障時(shí)間達(dá)250萬(wàn)小時(shí),高耐用性適用于寫(xiě)入密集的訓(xùn)練場(chǎng)景。
By the way,云存儲(chǔ)的彈性優(yōu)勢(shì)也不容忽視,突發(fā)性訓(xùn)練任務(wù),資源秒擴(kuò)容,絕不掉鏈子。結(jié)合本地緩存加速,可構(gòu)建混合云訓(xùn)練環(huán)境,速度省錢(qián)它都給!
在AI訓(xùn)練的全棧優(yōu)化中,存儲(chǔ)配置往往能以較小杠桿,撬動(dòng)顯著的加速效果,根據(jù)分析訓(xùn)練任務(wù)的數(shù)據(jù)訪問(wèn)模式、帶寬需求和延遲敏感度,選擇匹配的存儲(chǔ)架構(gòu),可以給企業(yè)狠狠上大分,充分釋放計(jì)算資源潛力,保持競(jìng)爭(zhēng)優(yōu)勢(shì)!
-
東芝
+關(guān)注
關(guān)注
6文章
1424瀏覽量
122018 -
存儲(chǔ)
+關(guān)注
關(guān)注
13文章
4453瀏覽量
86805 -
AI
+關(guān)注
關(guān)注
87文章
33251瀏覽量
273519
原文標(biāo)題:福利 | 解決AI“龜速”煩惱的性能優(yōu)化秘籍
文章出處:【微信號(hào):Toshiba-Electronics,微信公眾號(hào):東芝硬盤(pán)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
東芝固態(tài)硬盤(pán)解決方案

將電腦硬盤(pán)變成云存儲(chǔ),怎么做到把多余電腦硬盤(pán)變成云存儲(chǔ)

SATA硬盤(pán)的性能優(yōu)化技巧
SATA硬盤(pán)與NVMe硬盤(pán)的比較
服務(wù)器數(shù)據(jù)恢復(fù)—多塊硬盤(pán)離線導(dǎo)致EVA存儲(chǔ)崩潰的數(shù)據(jù)恢復(fù)案例

如何優(yōu)化ipc監(jiān)控系統(tǒng)的存儲(chǔ)方案
什么是大硬盤(pán)存儲(chǔ)能力強(qiáng)的服務(wù)器?
東芝PC級(jí)機(jī)械硬盤(pán)助力新聞工作者有效存儲(chǔ)數(shù)據(jù)
如何優(yōu)化emc存儲(chǔ)性能
關(guān)于對(duì)象存儲(chǔ)和云硬盤(pán)區(qū)別,你了解多少?
東芝推出新一代Mx11系列機(jī)械硬盤(pán)
東芝推出MG10-D系列企業(yè)級(jí)硬盤(pán)

評(píng)論