電子發(fā)燒友網(wǎng)>電子資料下載>電子資料>PyTorch教程19.1之什么是超參數(shù)優(yōu)化

PyTorch教程19.1之什么是超參數(shù)優(yōu)化

2513694 2023-06-05 | pdf | 0.29 MB | 次下載 | 免費(fèi)

資料介紹

正如我們在前幾章中所見，深度神經(jīng)網(wǎng)絡(luò)帶有大量在訓(xùn)練過程中學(xué)習(xí)的參數(shù)或權(quán)重。除此之外，每個(gè)神經(jīng)網(wǎng)絡(luò)都有額外的 超參數(shù)需要用戶配置。例如，為了確保隨機(jī)梯度下降收斂到訓(xùn)練損失的局部最優(yōu)（參見第 12 節(jié)），我們必須調(diào)整學(xué)習(xí)率和批量大小。為了避免在訓(xùn)練數(shù)據(jù)集上過度擬合，我們可能必須設(shè)置正則化參數(shù)，例如權(quán)重衰減（參見第 3.7 節(jié)）或 dropout（參見第 5.6 節(jié)）). 我們可以通過設(shè)置層數(shù)和每層單元或過濾器的數(shù)量（即權(quán)重的有效數(shù)量）來定義模型的容量和歸納偏差。

不幸的是，我們不能簡單地通過最小化訓(xùn)練損失來調(diào)整這些超參數(shù)，因?yàn)檫@會(huì)導(dǎo)致訓(xùn)練數(shù)據(jù)過度擬合。例如，將正則化參數(shù)（如 dropout 或權(quán)重衰減）設(shè)置為零會(huì)導(dǎo)致較小的訓(xùn)練損失，但可能會(huì)損害泛化性能。

https://file.elecfans.com/web2/M00/AA/48/pYYBAGR9PUqAbQbSAAB0OkZMfC0966.svg

圖 19.1.1機(jī)器學(xué)習(xí)中的典型工作流程，包括使用不同的超參數(shù)多次訓(xùn)練模型。

如果沒有不同形式的自動(dòng)化，就必須以反復(fù)試驗(yàn)的方式手動(dòng)設(shè)置超參數(shù)，這相當(dāng)于機(jī)器學(xué)習(xí)工作流程中耗時(shí)且困難的部分。例如，考慮在 CIFAR-10 上訓(xùn)練 ResNet（參見第 8.6 節(jié)g4dn.xlarge），這需要在 Amazon Elastic Cloud Compute (EC2)實(shí)例上訓(xùn)練 2 個(gè)多小時(shí)。即使只是依次嘗試十個(gè)超參數(shù)配置，這也已經(jīng)花費(fèi)了我們大約一天的時(shí)間。更糟糕的是，超參數(shù)通常不能直接跨架構(gòu)和數(shù)據(jù)集傳輸（Bardenet等人，2013 年，Feurer等人，2022 年，Wistuba等人，2018 年），并且需要針對每個(gè)新任務(wù)重新優(yōu)化。此外，對于大多數(shù)超參數(shù)，沒有經(jīng)驗(yàn)法則，需要專業(yè)知識才能找到合理的值。

超參數(shù)優(yōu)化 (HPO)算法旨在以一種有原則的和自動(dòng)化的方式解決這個(gè)問題（Feurer 和 Hutter，2018 年），將其定義為一個(gè)全局優(yōu)化問題。默認(rèn)目標(biāo)是保留驗(yàn)證數(shù)據(jù)集上的錯(cuò)誤，但原則上可以是任何其他業(yè)務(wù)指標(biāo)。它可以與次要目標(biāo)結(jié)合或受其約束，例如訓(xùn)練時(shí)間、推理時(shí)間或模型復(fù)雜性。

最近，超參數(shù)優(yōu)化已擴(kuò)展到神經(jīng)架構(gòu)搜索 (NAS) （Elsken等人，2018 年，Wistuba等人，2019 年），目標(biāo)是找到全新的神經(jīng)網(wǎng)絡(luò)架構(gòu)。與經(jīng)典 HPO 相比，NAS 在計(jì)算方面的成本更高，并且需要額外的努力才能在實(shí)踐中保持可行性。HPO 和 NAS 都可以被視為 AutoML 的子領(lǐng)域 ( Hutter et al. , 2019 )，旨在自動(dòng)化整個(gè) ML 管道。

在本節(jié)中，我們將介紹 HPO 并展示我們?nèi)绾巫詣?dòng)找到第 4.5 節(jié)介紹的邏輯回歸示例的最佳超參數(shù)。

19.1.1. 優(yōu)化問題

我們將從一個(gè)簡單的玩具問題開始：搜索第 4.5 節(jié)SoftmaxRegression中的多類邏輯回歸模型的學(xué)習(xí)率，以最小化 Fashion MNIST 數(shù)據(jù)集上的驗(yàn)證錯(cuò)誤。雖然批量大小或輪數(shù)等其他超參數(shù)也值得調(diào)整，但為簡單起見，我們只關(guān)注學(xué)習(xí)率。

					import numpy as np
import torch
from scipy import stats
from torch import nn
from d2l import torch as d2l

					 

在運(yùn)行 HPO 之前，我們首先需要定義兩個(gè)要素：目標(biāo)函數(shù)和配置空間。

19.1.1.1。目標(biāo)函數(shù)

學(xué)習(xí)算法的性能可以看作是一個(gè)函數(shù) f:X→R從超參數(shù)空間映射x∈X到驗(yàn)證損失。對于每一個(gè)評價(jià)f(x)，我們必須訓(xùn)練和驗(yàn)證我們的機(jī)器學(xué)習(xí)模型，對于在大型數(shù)據(jù)集上訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)，這可能是時(shí)間和計(jì)算密集型的。鑒于我們的標(biāo)準(zhǔn)f(x)我們的目標(biāo)是找到 x?∈argminx∈Xf(x).

沒有簡單的方法來計(jì)算的梯度f關(guān)于 x，因?yàn)樗枰谡麄€(gè)訓(xùn)練過程中傳播梯度。雖然最近有工作（Franceschi等人，2017 年，Maclaurin等人，2015 年）通過近似“超梯度”驅(qū)動(dòng) HPO，但現(xiàn)有方法中沒有一種與最先進(jìn)的方法具有競爭力，我們將不在這里討論它們。此外，評估的計(jì)算負(fù)擔(dān)f 要求 HPO 算法以盡可能少的樣本接近全局最優(yōu)。

神經(jīng)網(wǎng)絡(luò)的訓(xùn)練是隨機(jī)的（例如，權(quán)重是隨機(jī)初始化的，mini-batches 是隨機(jī)采樣的），因此我們的觀察結(jié)果會(huì)很嘈雜：y～f(x)+?，我們通常假設(shè)?～N(0,σ) 觀察噪聲呈高斯分布。

面對所有這些挑戰(zhàn)，我們通常會(huì)嘗試快速識別一小組性能良好的超參數(shù)配置，而不是準(zhǔn)確地達(dá)到全局最優(yōu)值。然而，由于大多數(shù)神經(jīng)網(wǎng)絡(luò)模型的大量計(jì)算需求，即使這樣也可能需要數(shù)天或數(shù)周的計(jì)算時(shí)間。我們將在19.4 節(jié)中探討如何通過分布搜索或使用目標(biāo)函數(shù)的評估成本更低的近似值來加快優(yōu)化過程。

我們從計(jì)算模型驗(yàn)證誤差的方法開始。

						class HPOTrainer(d2l.Trainer): #@save
  def validation_error(self):
    self.model.eval()
    accuracy = 0
    val_batch_idx = 0
    for batch in self.val_dataloader:
      with torch.no_grad():
        x, y = self.prepare_batch(batch)
        y_hat = self.model(x)
        accuracy += self.model.accuracy(y_hat, y)
      val_batch_idx += 1
    return 1 - accuracy / val_batch_idx

						 

我們優(yōu)化了關(guān)于超參數(shù)配置的驗(yàn)證錯(cuò)誤config，由learning_rate. 對于每個(gè)評估，我們訓(xùn)練我們的模型max_epochsepochs，然后計(jì)算并返回其驗(yàn)證錯(cuò)誤：

						def hpo_objective_softmax_classification(config, max_epochs=8):
  learning_rate = config["learning_rate"]
  trainer = d2l.HPOTrainer(max_epochs=max_epochs)
  data = d2l.FashionMNIST(batch_size=16)
  model = d2l.SoftmaxRegression(num_outputs=10, lr=learning_rate)
  trainer.fit(model=model, data=data)
  return trainer.validation_error().detach().numpy()

						 

19.1.1.2。配置空間

隨著目標(biāo)函數(shù)f(x)，我們還需要定義可行集x∈X優(yōu)化過來，稱為配置空間或搜索空間。對于我們的邏輯回歸示例，我們將使用：

						config_space = {"learning_rate": stats.loguniform(1e-4, 1)}

						 

這里我們使用loguniformSciPy 中的對象，它表示對數(shù)空間中 -4 和 -1 之間的均勻分布。這個(gè)對象允許我們從這個(gè)分布中抽樣隨機(jī)變量。

每個(gè)超參數(shù)都有一個(gè)數(shù)據(jù)類型，例如floatfor learning_rate，以及一個(gè)封閉的有界范圍（即下限和上限）。我們通常為每個(gè)超參數(shù)分配一個(gè)先驗(yàn)分布（例如，均勻分布或?qū)?shù)均勻分布）以從中進(jìn)行采樣。一些正參數(shù)（例如learning_rate）最好用對數(shù)標(biāo)度表示，因?yàn)樽罴阎悼赡芟嗖顜讉€(gè)數(shù)量級，而其他參數(shù)（例如動(dòng)量）則采用線性標(biāo)度。

下面我們展示了一個(gè)配置空間的簡單示例，該配置空間由多層感知器的典型超參數(shù)組成，包括它們的類型和標(biāo)準(zhǔn)范圍。