我欲封天耳根小说,国际完美世界下载,好看的言情小说

編者按：Feedly聯合創始人、大數據與機器學習主管Kireet Reddy講解了LogSumExp原理。

機器學習中有很多巧妙的竅門，可以加速訓練，提升表現……今天我將討論LogSumExp這一機器學習中常見的模式。首先給出定義：

我們什么時候會見到這樣的式子？常見的一個地方是計算softmax函數的交叉熵損失。如果這聽起來冗長難解，那么：1) 習慣一下，ML中太多東西有著瘋狂的名字；2) 直接意識到這沒什么復雜的。有必要的話可以看看斯坦福cs231n的出色講解，或者，就本文而言，只需了解softmax是這樣一個函數就可以：

其中，分子中的xj是分母中的一個值（其中一個xi）。所以softmax做的基本上是對一些值取冪，然后歸一化，使得所有xj的可能值總和為1，以生成所需的概率分布。

所以，你可以把softmax函數看成一種接受任何數字并轉換為概率分布的非線性方法。至于交叉熵，只需了解它是對函數取對數。這就涌現出了LogSumExp模式：

為什么這是一種生成概率分布的好方法，也許看起來有點神秘。目前而言，不妨把這當成是信條。

數值穩定性

我們還是接著談談LogSumExp吧。首先，從純數學的角度來說，LogSumExp沒什么特別的。但是，當我們討論計算機上的數學時，LogSumExp就特別起來了。原因在于計算機表示數字的方式。計算機使用固定數目的位元表示數字。幾乎所有時刻這都沒什么問題，但是，因為不可能用固定數目的位元精確表示數字的無限集合，所以有時這會導致誤差。

讓我們舉例演示這個問題，從xi中取樣兩個樣本：{1000, 1000, 1000}和{-1000, -1000, -1000}。將這兩個序列傳入softmax函數會得到同一概率分布{1/3, 1/3, 1/3}，然后1/3的對數是一個合理的負數。現在讓我們嘗試用Python算下求和中的一項：

>>> import math

>>> math.e**1000

Traceback (most recent call last):

File "", line 1, in

OverflowError: (34, 'Result too large')

哎喲。也許-1000的運氣要好些：

>>> math.e**-1000

0.0

也不對勁。所以我們碰到了某種數值穩定性問題，即使看起來合理的輸入值也會導致溢出。

迂回方案

幸運的是，人們找到了一個很好的緩解方法，根據冪的乘法法則：