回想一下2.4 節,計算導數是我們將用于訓練深度網絡的所有優化算法中的關鍵步驟。雖然計算很簡單,但手工計算可能很乏味且容易出錯,而且這個問題只會隨著我們的模型變得更加復雜而增長。
幸運的是,所有現代深度學習框架都通過提供自動微分(通常簡稱為 autograd )來解決我們的工作。當我們通過每個連續的函數傳遞數據時,該框架會構建一個計算圖來跟蹤每個值如何依賴于其他值。為了計算導數,自動微分通過應用鏈式法則通過該圖向后工作。以這種方式應用鏈式法則的計算算法稱為反向傳播。
雖然 autograd 庫在過去十年中成為熱門話題,但它們的歷史悠久。事實上,對 autograd 的最早引用可以追溯到半個多世紀以前(Wengert,1964 年)。現代反向傳播背后的核心思想可以追溯到 1980 年的一篇博士論文 ( Speelpenning, 1980 ),并在 80 年代后期得到進一步發展 ( Griewank, 1989 )。雖然反向傳播已成為計算梯度的默認方法,但它并不是唯一的選擇。例如,Julia 編程語言采用前向傳播 (Revels等人,2016 年). 在探索方法之前,我們先來掌握autograd這個包。
import tensorflow as tf
2.5.1. 一個簡單的函數
假設我們有興趣區分函數 y=2x?x關于列向量x. 首先,我們分配x
在我們計算梯度之前y關于 x,我們需要一個地方來存放它。通常,我們避免每次求導時都分配新內存,因為深度學習需要針對相同參數連續計算導數數千或數百萬次,并且我們可能會面臨內存耗盡的風險。請注意,標量值函數相對于向量的梯度x是向量值的并且具有相同的形狀x.
# Can also create x = torch.arange(4.0, requires_grad=True)
x.grad # The gradient is None by default
array([0., 1., 2., 3.])
array([0., 0., 0., 0.])
Array([0., 1., 2., 3.], dtype=float32)
<tf.Tensor: shape=(4,), dtype=float32, numpy=array([0., 1., 2., 3.], dtype=float32)>
tensor(28., grad_fn=<MulBackward0>)
關于的梯度。接下來,我們可以通過的 屬性訪問漸變。x
tensor([ 0., 4., 8., 12.])
array([ 0., 4., 8., 12.])
Array(28., dtype=float32)
from jax import grad
# The `grad` transform returns a Python function that
# computes the gradient of the original function
x_grad = grad(y)(x)
Array([ 0., 4., 8., 12.], dtype=float32)
<tf.Tensor: shape=(), dtype=float32, numpy=28.0>
We can now calculate the gradient of y
with respect to x
by calling the gradient
