NNI 自動(dòng)機(jī)器學(xué)習(xí)調(diào)參,是微軟開源的又一個(gè)神器,它能幫助你找到最好的神經(jīng)網(wǎng)絡(luò)架構(gòu)或超參數(shù),支持 各種訓(xùn)練環(huán)境 。
它常用的使用場景如下:
- 想要在自己的代碼、模型中試驗(yàn) 不同的機(jī)器學(xué)習(xí)算法 。
- 想要在不同的環(huán)境中加速運(yùn)行機(jī)器學(xué)習(xí)。
- 想要更容易實(shí)現(xiàn)或試驗(yàn)新的機(jī)器學(xué)習(xí)算法的研究員或數(shù)據(jù)科學(xué)家,包括:超參調(diào)優(yōu)算法,神經(jīng)網(wǎng)絡(luò)搜索算法以及模型壓縮算法。
它支持的框架有:
- PyTorch
- Keras
- TensorFlow
- MXNet
- Caffe2
- Scikit-learn
- XGBoost
- LightGBM
基本上市面上所有的深度學(xué)習(xí)和機(jī)器學(xué)習(xí)的框架它都支持。
下面就來看看怎么使用這個(gè)工具。
1.準(zhǔn)備
開始之前,你要確保Python和pip已經(jīng)成功安裝在電腦上,如果沒有,可以訪問這篇文章:超詳細(xì)Python安裝指南 進(jìn)行安裝。
**(可選1) **如果你用Python的目的是數(shù)據(jù)分析,可以直接安裝Anaconda:Python數(shù)據(jù)分析與挖掘好幫手—Anaconda,它內(nèi)置了Python和pip.
**(可選2) **此外,推薦大家用VSCode編輯器,它有許多的優(yōu)點(diǎn):Python 編程的最好搭檔—VSCode 詳細(xì)指南。
請(qǐng)選擇以下任一種方式輸入命令安裝依賴 :
- Windows 環(huán)境 打開 Cmd (開始-運(yùn)行-CMD)。
- MacOS 環(huán)境 打開 Terminal (command+空格輸入Terminal)。
- 如果你用的是 VSCode編輯器 或 Pycharm,可以直接使用界面下方的Terminal.
pip install nni
2.運(yùn)行示例
讓我們運(yùn)行一個(gè)示例來驗(yàn)證是否安裝成功,首先克隆項(xiàng)目:
git clone -b v2.6 https://github.com/Microsoft/nni.git
如果你無法成功克隆項(xiàng)目,請(qǐng)?jiān)赑ython實(shí)用寶典后臺(tái)回復(fù) **nni **下載項(xiàng)目。
運(yùn)行 MNIST-PYTORCH 示例, Linux/macOS :
nnictl create --config nni/examples/trials/mnist-pytorch/config.yml
Windows :
nnictl create --config nniexamplestrialsmnist-pytorchconfig_windows.yml
出現(xiàn)這樣的界面就說明安裝成功,示例運(yùn)行正常:
訪問 http://127.0.0.1:8080 可以配置運(yùn)行時(shí)間、實(shí)驗(yàn)次數(shù)等:
3.模型自動(dòng)調(diào)參配置
那么如何讓 NNI 和我們自己的模型適配呢?
觀察 config_windows.yaml 會(huì)發(fā)現(xiàn):
searchSpaceFile: search_space.json
trialCommand: python mnist.py
trialGpuNumber: 0
trialConcurrency: 1
tuner:
name: TPE
classArgs:
optimize_mode: maximize
trainingService:
platform: local
我們先看看 trialCommand, 這很明顯是訓(xùn)練使用的命令,訓(xùn)練代碼位于 mnist.py,其中有部分代碼如下:
def get_params():
# Training settings
parser = argparse.ArgumentParser(description='PyTorch MNIST Example')
parser.add_argument("--data_dir", type=str,
default='./data', help="data directory")
parser.add_argument('--batch_size', type=int, default=64, metavar='N',
help='input batch size for training (default: 64)')
parser.add_argument("--batch_num", type=int, default=None)
parser.add_argument("--hidden_size", type=int, default=512, metavar='N',
help='hidden layer size (default: 512)')
parser.add_argument('--lr', type=float, default=0.01, metavar='LR',
help='learning rate (default: 0.01)')
parser.add_argument('--momentum', type=float, default=0.5, metavar='M',
help='SGD momentum (default: 0.5)')
parser.add_argument('--epochs', type=int, default=10, metavar='N',
help='number of epochs to train (default: 10)')
parser.add_argument('--seed', type=int, default=1, metavar='S',
help='random seed (default: 1)')
parser.add_argument('--no_cuda', action='store_true', default=False,
help='disables CUDA training')
parser.add_argument('--log_interval', type=int, default=1000, metavar='N',
help='how many batches to wait before logging training status')
args, _ = parser.parse_known_args()
return args
如上所示,這個(gè)模型里提供了 10 個(gè)參數(shù)選擇。也就是說 NNI 可以幫我們自動(dòng)測(cè)試這10個(gè)參數(shù)。
那么這些參數(shù)在哪里設(shè)定?答案是在 searchSpaceFile 中,對(duì)應(yīng)的值也就是 search_space.json:
{
"batch_size": {"_type":"choice", "_value": [16, 32, 64, 128]},
"hidden_size":{"_type":"choice","_value":[128, 256, 512, 1024]},
"lr":{"_type":"choice","_value":[0.0001, 0.001, 0.01, 0.1]},
"momentum":{"_type":"uniform","_value":[0, 1]}
}
這里有4個(gè)選項(xiàng),NNI 是怎么組合這些參數(shù)的呢?這是 tuner 參數(shù)干的事,為了讓機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型適應(yīng)不同的任務(wù)和問題,我們需要進(jìn)行超參數(shù)調(diào)優(yōu),而自動(dòng)化調(diào)優(yōu)依賴于優(yōu)秀的調(diào)優(yōu)算法。NNI 內(nèi)置了先進(jìn)的調(diào)優(yōu)算法,并且提供了易于使用的 API。
在 NNI 中,Tuner 向 trial 發(fā)送超參數(shù),接收運(yùn)行結(jié)果從而評(píng)估這組超參的性能,然后將下一組超參發(fā)送給新的 trial。
下表簡要介紹了 NNI 內(nèi)置的調(diào)優(yōu)算法。
Tuner | 算法簡介 |
---|---|
TPE | Tree-structured Parzen Estimator (TPE) 是一種基于序列模型的優(yōu)化方法。SMBO方法根據(jù)歷史數(shù)據(jù)來順序地構(gòu)造模型,從而預(yù)估超參性能,并基于此模型來選擇新的超參。 |
Random Search (隨機(jī)搜索) | 隨機(jī)搜索在超算優(yōu)化中表現(xiàn)出了令人意外的性能。如果沒有對(duì)超參分布的先驗(yàn)知識(shí),我們推薦使用隨機(jī)搜索作為基線方法。 |
Anneal (退火) | 樸素退火算法首先基于先驗(yàn)進(jìn)行采樣,然后逐漸逼近實(shí)際性能較好的采樣點(diǎn)。該算法是隨即搜索的變體,利用了反應(yīng)曲面的平滑性。該實(shí)現(xiàn)中退火率不是自適應(yīng)的。 |
Naive Evolution(樸素進(jìn)化) | 樸素進(jìn)化算法來自于 Large-Scale Evolution of Image Classifiers。它基于搜索空間隨機(jī)生成一個(gè)種群,在每一代中選擇較好的結(jié)果,并對(duì)其下一代進(jìn)行變異。樸素進(jìn)化算法需要很多 Trial 才能取得最優(yōu)效果,但它也非常簡單,易于擴(kuò)展。 |
SMAC | SMAC 是基于序列模型的優(yōu)化方法 (SMBO)。它利用使用過的最突出的模型(高斯隨機(jī)過程模型),并將隨機(jī)森林引入到SMBO中,來處理分類參數(shù)。NNI 的 SMAC tuner 封裝了 GitHub 上的 SMAC3。參考論文注意:SMAC 算法需要使用pip install nni[SMAC] 安裝依賴,暫不支持 Windows 操作系統(tǒng)。 |
Batch(批處理) | 批處理允許用戶直接提供若干組配置,為每種配置運(yùn)行一個(gè) trial。 |
Grid Search(網(wǎng)格遍歷) | 網(wǎng)格遍歷會(huì)窮舉搜索空間中的所有超參組合。 |
Hyperband | Hyperband 試圖用有限的資源探索盡可能多的超參組合。該算法的思路是,首先生成大量超參配置,將每組超參運(yùn)行較短的一段時(shí)間,隨后拋棄其中效果較差的一半,讓較好的超參繼續(xù)運(yùn)行,如此重復(fù)多輪。參考論文 |
Metis | 大多數(shù)調(diào)參工具僅僅預(yù)測(cè)最優(yōu)配置,而 Metis 的優(yōu)勢(shì)在于它有兩個(gè)輸出:(a) 最優(yōu)配置的當(dāng)前預(yù)測(cè)結(jié)果, 以及 (b) 下一次 trial 的建議。大多數(shù)工具假設(shè)訓(xùn)練集沒有噪聲數(shù)據(jù),但 Metis 會(huì)知道是否需要對(duì)某個(gè)超參重新采樣。參考論文 |
BOHB | BOHB 是 Hyperband 算法的后續(xù)工作。Hyperband 在生成新的配置時(shí),沒有利用已有的 trial 結(jié)果,而本算法利用了 trial 結(jié)果。BOHB 中,HB 表示 Hyperband,BO 表示貝葉斯優(yōu)化(Byesian Optimization)。BOHB 會(huì)建立多個(gè) TPE 模型,從而利用已完成的 Trial 生成新的配置。參考論文 |
GP (高斯過程) | GP Tuner 是基于序列模型的優(yōu)化方法 (SMBO),使用高斯過程進(jìn)行 surrogate。參考論文 |
PBT | PBT Tuner 是一種簡單的異步優(yōu)化算法,在固定的計(jì)算資源下,它能有效的聯(lián)合優(yōu)化一組模型及其超參來最優(yōu)化性能。參考論文 |
DNGO | DNGO 是基于序列模型的優(yōu)化方法 (SMBO),該算法使用神經(jīng)網(wǎng)絡(luò)(而不是高斯過程)去建模貝葉斯優(yōu)化中所需要的函數(shù)分布。 |
可以看到本示例中,選擇的是TPE tuner.
其他的參數(shù)比如 trialGpuNumber,指的是使用的gpu數(shù)量,trialConcurrency 指的是并發(fā)數(shù)。trainingService 中 platform 為 local,指的是本地訓(xùn)練。
當(dāng)然,還有許多參數(shù)可以選,比如:
trialConcurrency: 2 # 同時(shí)運(yùn)行 2 個(gè) trial
maxTrialNumber: 10 # 最多生成 10 個(gè) trial
maxExperimentDuration: 1h # 1 小時(shí)后停止生成 trial
不過這些參數(shù)在調(diào)優(yōu)開始時(shí)的web頁面上是可以進(jìn)行調(diào)整的。
所以其實(shí)NNI干的事情就很清楚了,也很簡單。你只需要在你的模型訓(xùn)練文件中增加你想要調(diào)優(yōu)的參數(shù)作為輸入,就能使用NNI內(nèi)置的調(diào)優(yōu)算法對(duì)不同的參數(shù)進(jìn)行調(diào)優(yōu),而且允許從頁面UI上觀察調(diào)優(yōu)的整個(gè)過程,相對(duì)而言還是很方便的。
不過,NNI可能不太適用一些數(shù)據(jù)量極大或模型比較復(fù)雜的情況。比如基于DDP開發(fā)的模型,在NNI中可能無法實(shí)現(xiàn)大型的分布式計(jì)算。
-
微軟
+關(guān)注
關(guān)注
4文章
6634瀏覽量
104536 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4783瀏覽量
101239 -
NNI
+關(guān)注
關(guān)注
0文章
3瀏覽量
6362 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8446瀏覽量
133126
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
【OK210申請(qǐng)】智能家電(廚房神器之幫廚機(jī)器人)開發(fā)
阿里巴巴大數(shù)據(jù)產(chǎn)品最新特性介紹--機(jī)器學(xué)習(xí)PAI
教你怎樣學(xué)會(huì)PID調(diào)參
PID調(diào)參的相關(guān)資料分享
針對(duì)PID調(diào)參進(jìn)行詳細(xì)的講解
NNI
深度學(xué)習(xí)和機(jī)器學(xué)習(xí)深度的不同之處 淺談深度學(xué)習(xí)的訓(xùn)練和調(diào)參
深度學(xué)習(xí)的調(diào)參經(jīng)驗(yàn)
機(jī)器學(xué)習(xí)全靠調(diào)參?谷歌發(fā)布顛覆性研究
結(jié)機(jī)器學(xué)習(xí)的模型評(píng)估與調(diào)參大法 想學(xué)的快上車
![結(jié)<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>的模型評(píng)估與<b class='flag-5'>調(diào)</b><b class='flag-5'>參</b>大法 想學(xué)的快上車](https://file.elecfans.com/web1/M00/C8/24/pIYBAF9tW7KAWffIAAB0DnQtwiw998.png)
機(jī)器學(xué)習(xí)8大調(diào)參技巧
![<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>8大<b class='flag-5'>調(diào)</b><b class='flag-5'>參</b>技巧](https://file.elecfans.com/web2/M00/4E/DC/poYBAGLCjeiALm_WAAAYmfR7Qec474.png)
評(píng)論