編者按:數(shù)據(jù)科學(xué)家Jonny Brooks-Bartlett撰寫的零基礎(chǔ)概率論教程的第六篇,深入淺出地講解概率分布這一概念。
在之前的文章中,我介紹了概率論的基本概念和基本公理。數(shù)學(xué)家會為這些感到興奮,但在實踐中,概率論中比較常用的是概率分布。
概率分布用于許多領(lǐng)域,但我們很少看到相應(yīng)的解釋。通常作者會假定讀者已經(jīng)了解概率分布了。本文將嘗試解釋什么是概率分布。
什么是概率分布?
回憶一下,隨機變量是值為一個隨機事件的結(jié)果的變量(如果不知所云,請溫習(xí)下本系列的第一篇)。例如,擲骰子的點數(shù)或拋硬幣的結(jié)果是隨機變量。
概率分布是隨機變量所有可能結(jié)果及其相應(yīng)概率的列表。
例如,均勻6面骰的概率分布為:
更明確地說,這是一個有限支持的離散單元概率分布的例子。這讀起來比較拗口,所以讓我分解這一表述,逐步理解。
離散(discrete)這意味著如果我選擇任意兩個連續(xù)的結(jié)果,我無法取得位于兩者之間的結(jié)果。例如,考慮投擲六面骰的結(jié)果1點和2點,我沒法得到兩者之間的點數(shù)(例如,我沒法擲出1.5點)。在數(shù)學(xué)上,我們會說,結(jié)果列表是可數(shù)的(不過我不會進一步定義可數(shù)集和不可數(shù)集了,否則就沒完沒了了)。你大概可以猜想,當(dāng)我們涉及連續(xù)(continuous)概率分布時,這一點會不成立。
單元(univariate)這意味著我們只有一個(隨機)變量。在這一情形下,我們只有擲骰的結(jié)果。相反,如果我們有不止一個變量,那我們稱其為多元分布(multivariate distribution)。如果我們有兩個變量,那么這一多元分布的特例稱為二元分布(bivariate distribution)。
有限支持(finite support)這意味著結(jié)果的數(shù)目是有限的。基本上,支持是定義概率分布的結(jié)果。所以,在我們的例子中,支持是1、2、3、4、5、6. 由于這些值不是無限的,所以我們說這是有限支持的概率分布。
函數(shù)入門
我們?yōu)楹握務(wù)摵瘮?shù)?
在上面的投擲六面骰的例子中,只有六種可能的結(jié)果,所以我們可以在一個表格中寫下整個概率分布。但在很多場景中,結(jié)果的數(shù)量可能很大,用表格羅列會很枯燥乏味。更糟的是,可能結(jié)果的數(shù)目也許是無限的,在那樣的情形下,就沒法編寫表格了。
為了免去為每個分布編寫表格的麻煩,我們可以轉(zhuǎn)而定義一個函數(shù)。函數(shù)允許我們簡潔地定義一個概率分布。
所以,讓我們首先介紹一般意義上的函數(shù),接著再介紹用于概率分布的函數(shù)。
什么是函數(shù)?
從一個非常抽象的層次上說,函數(shù)是一個接受輸入并返回輸出的盒子。在大多數(shù)情況下,函數(shù)事實上需要對輸入進行一些處理,以得到有用的輸出。
讓我們自行定義一個函數(shù)。比方說,這個函數(shù)接受一個數(shù)字作為輸入,在輸入數(shù)字上加2,并返回新數(shù)字作為輸出,如下圖所示:
所以,如果輸入是5,我們的函數(shù)會加上2,并返回輸出5 + 2 = 7
函數(shù)記法
給我們想要創(chuàng)建的所有函數(shù)畫示意圖是件枯燥乏味的工作。我們轉(zhuǎn)而使用符號/字母,以便更簡潔地表示函數(shù)。我們用“x”替換單詞“input”(輸入),用“f”替換單詞“function”(函數(shù)),用“f(x)”替換單詞“輸出”。所以,上面的示意圖現(xiàn)在變成這樣了:
這要好一點,不過,需要畫示意圖表示函數(shù)做了什么這個問題仍然存在。數(shù)學(xué)家可不想浪費寶貴的精力畫盒子,所以發(fā)明了更好的表示函數(shù)的方式,什么也不用畫。在數(shù)學(xué)上,我們的函數(shù)可以定義為:
這和上面的示意圖是等價的,因為我們可以明確看到函數(shù)的輸入是x,我們的函數(shù)稱為f,并且我們知道函數(shù)在輸入上加2,并返回x + 2作為輸出。
值得注意的是,函數(shù)名和輸入的字母選擇是任意的。我可以說輸入是“a”,將函數(shù)稱為“add_two”(加二):
這和之前的函數(shù)定義完全等價。
這里關(guān)鍵的一點是,有了函數(shù)定義,我們可以看到如何轉(zhuǎn)換任何輸入。給定函數(shù)f(x) = x + 2,我們會知道如果輸入是10做什么,或者如果輸入是10000做什么。所以我們不用像之前那樣列出一個表格。
這里需要指出的是,我們即將使用的函數(shù)的輸入和輸出都是數(shù)字。然而,函數(shù)可以接受任何你喜歡的東西作為輸入,并輸出任何你喜歡的東西(甚至什么都不輸出)。例如,我們可以在編程語言中編寫一個函數(shù),接受一個文本字符串作為輸入,并輸出字符串的第一個字母。下面是用Python編程語言寫的一個例子:
def get_first_letter(my_string):
return my_string[0]
get_first_letter('Hello World') # 結(jié)果為 'H'
譯者注:這里僅為示例,實際定義函數(shù)的時候還需要考慮輸入字符串為空的情況,需要捕獲IndexError異常或先行判斷字符串是否為空。
用圖像表示函數(shù)
函數(shù)的主要優(yōu)勢之一是讓我們知道如何轉(zhuǎn)換任何輸入,所以我們可以利用這一知識可視化函數(shù)。回到之前的例子f(x) = x + 2. 它的圖像是這樣的:
底下的橫軸表示輸入數(shù)字,相應(yīng)地,左側(cè)的縱軸表示輸出值f(x) = x + 2. 例如,我們看到,表示函數(shù)的藍線穿過了x = 1處的(白色)縱線和f(x) = 3處的(白色)橫線。這從圖像上顯示了f(1) = 1 + 2 = 3.
函數(shù)的參數(shù)
函數(shù)最重要的特征之一是參數(shù)。參數(shù)是函數(shù)內(nèi)部不必作為輸入傳入的數(shù)字。在我們的例子f(x) = x + 2中,數(shù)字“2”是一個參數(shù),因為我們需要它來定義函數(shù),但沒有將它納入函數(shù)的輸入。
參數(shù)之所以重要,是因為它們直接決定輸出。例如,定義另一個函數(shù)h(x) = x + 3. 函數(shù)f(x) = x + 2和新定義的函數(shù)h(x) = x + 3之間唯一的區(qū)別是參數(shù)值(新函數(shù)的參數(shù)是“3”而不是“2”)。這一差異意味著相同輸入得到的輸出完全不同。讓我們看下相應(yīng)的圖像:
參數(shù)可以算是概率(分布)函數(shù)最重要的特征了,因為它們定義了函數(shù)的輸出,告訴我們隨機過程得到特定結(jié)果的似然。在數(shù)據(jù)科學(xué)問題中,我們常常試圖估計參數(shù),我之前曾經(jīng)介紹過兩種估計參數(shù)的方法:最大似然估計和貝葉斯推斷。
現(xiàn)在我們可以用函數(shù)語言討論概率分布了。
概率質(zhì)量函數(shù):離散概率分布
當(dāng)我們使用概率函數(shù)描述離散概率分布時,我們將其稱為概率質(zhì)量函數(shù)(probability mass function),通常縮寫為pmf.
還記得我們在這個系列的第一篇提到的隨機變量概率的記法嗎?我們將隨機變量記為大寫的X,而將變量的值記為小寫的x,隨機變量概率則記為P(X=x). 因此,如果我們的隨機變量是投擲骰子的點數(shù),我們可以將擲出3點的概率記為P(X=3) = 1/6.
概率質(zhì)量函數(shù)(記為“f”)返回結(jié)果的概率:
我知道這里開始有點嚇人,但請多容忍一點數(shù)學(xué)。上面的公式不過是表明,概率質(zhì)量函數(shù)“f”返回結(jié)果x的概率。
所以讓我們回到均勻6面骰的例子(你大概已經(jīng)厭煩這個例子了吧?)。概率質(zhì)量函數(shù)f不過是返回結(jié)果的概率。因此擲出三點的概率是f(3) = 1/6.
由于概率質(zhì)量函數(shù)返回概率,所以它必須遵循我在前一篇描述的概率法則(公理)。也就是說,概率質(zhì)量函數(shù)輸出0到1之間的值(含),而所有結(jié)果的概率質(zhì)量函數(shù)輸出之和等于1. 在數(shù)學(xué)上,我們可以將這兩個條件表達為:
所以說,我們可以用表格和函數(shù)表示離散概率分布。我們也可以用圖形表示投擲骰子這個例子:
離散概率分布示例:伯努利分布
有些概率分布出現(xiàn)得非常頻繁,人們對它們進行了全面的研究,并命名了這些概率分布。伯努利分布(Bernoulli distribution)就是一個例子。它是描述有兩種可能結(jié)果的過程的概率分布,比如拋硬幣。
伯努利分布的概率質(zhì)量函數(shù)為:
這里,x表示結(jié)果,值為1或0. 所以我們可以說正面 = 1,反面 = 0. p是表示結(jié)果為1的概率的參數(shù)。所以在扔均勻硬幣問題中,扔出正面或反面的概率是0.5,因此我們令p = 0.5.
我們經(jīng)常想要明確標(biāo)出概率質(zhì)量函數(shù)中包含的參數(shù),所以伯努利分布的概率質(zhì)量函數(shù)可以表示為:
注意,這里我們使用分號隔開輸入變量和參數(shù)。
概率密度函數(shù):連續(xù)概率分布
有時我們關(guān)心具有連續(xù)結(jié)果的隨機變量的概率。例如,從某個族群中隨機抽取的成人的身高,出租車司機等待下一個乘客的時間。在這些例子中,用連續(xù)概率分布描述隨機變量更合適。
當(dāng)我們使用概率函數(shù)描述連續(xù)概率分布時,我們稱其為概率密度函數(shù)(probability density function),通常縮寫為pdf.
概率密度函數(shù)的概念比概率質(zhì)量函數(shù)要稍微復(fù)雜一點,不過別擔(dān)心,我們能夠理解。我覺得先講一個連續(xù)概率分布的例子,再討論連續(xù)概率分布的性質(zhì),比較容易理解。
連續(xù)概率分布示例:正態(tài)分布
正態(tài)分布大概是所有概率和統(tǒng)計學(xué)問題中最常見的分布了。它如此常見的原因之一是中央極限定理。本文不會深入介紹這個定理,不過你可以參考Carson Forter寫的博客文章The Only Theorem Data Scientists Need To Know,其中解釋了這個定理是什么,還有它和正態(tài)分布的關(guān)系。
正態(tài)分布的概率密度函數(shù)定義為:
其中,參數(shù)(分號后的符號)μ表示均值(分布的中心點),σ表示標(biāo)準(zhǔn)差(分布的散布程度)。
如果我們將均值設(shè)為零(μ=0),標(biāo)準(zhǔn)差設(shè)為1(σ=1),那么我們將得到如下圖所示的分布:
正態(tài)分布是一個無限支持的連續(xù)單元概率分布。無限支持意味著我們可以為負無窮大到正無窮大之前的所有結(jié)果計算概率密度函數(shù)值。在數(shù)學(xué)上,我們有時稱其支持整條實直線(vhole real line)
連續(xù)概率分布性質(zhì)
首先需要注意的是縱軸從0開始向上延伸。這是概率密度函數(shù)需要遵守的規(guī)則。概率密度函數(shù)的任何輸出值大于等于零,或者說,輸出非負:
然而,和概率質(zhì)量函數(shù)不同,概率密度函數(shù)的輸出不是概率值。這是一個極為重要的差別。
要從概率密度函數(shù)求得概率,我們需要找到曲線下的面積。例如,假設(shè)我們的樣本分布均值 = 3,標(biāo)準(zhǔn)差 = 1,我們在下圖中畫出結(jié)果位于0到1之間的概率:
數(shù)學(xué)上表達為:
上式的意思是,概率密度函數(shù)0到1之間的積分(等式左邊)等于隨機變量的結(jié)果位于0到1之間的概率(等式右邊)。
原諒我沒有明確地介紹積分是什么,積分是如何工作的(我在本系列的邊緣化一文中簡短地介紹了積分的概念,但沒有涉及如何計算積分)。如果你不了解積分,那么目前而言你需要知道的是積分是一種求曲線下面積的方法,在這里給我們提供結(jié)果的概率。也許我需要撰寫一個簡短的系列,初步介紹微積分。
現(xiàn)在我們看到了概率密度函數(shù)的另一個性質(zhì)。也就是兩個結(jié)果之間的概率,是概率密度函數(shù)在這兩點間的積分(等價于求出概率密度函數(shù)在兩點之間的曲線下的面積)。數(shù)學(xué)上,這可以表示為:
別忘了我們?nèi)匀恍枰裱怕史植嫉囊?guī)則,也就是所有可能結(jié)果之和等于1. 如果我們將范圍設(shè)定為“負無窮大”到“正無窮大”,那么就可以覆蓋所有可能的情形。因此,對概率密度函數(shù)而言:
也就是說,負無窮大到正無窮大之間的曲線下面積等于1.
連續(xù)概率分布重要的一個性質(zhì)(可能看起來很怪異)是隨機變量取得特定結(jié)果的概率為0. 例如,如果我們嘗試求解結(jié)果等于數(shù)字2的概率,我們將得到:
這個概念可能看起來很詭異,但如果你理解微積分,就比較容易理解這點。本文不會介紹微積分。相反,我想從中總結(jié)出一點,我們只討論兩個值之間的概率,或者討論出現(xiàn)大于或小于特定值的結(jié)果的概率。我們不討論結(jié)果等于特定值的概率。
眼尖的讀者可能注意到我用了“小于號(<)”和“大于號(>)”,而不是“大于等于號(≤)”和“小于等于號(≥)”。就連續(xù)概率分布而言,這實際上并沒有關(guān)系,兩者是一樣的。
所以隨機變量取a和b之間的值的概率等于取a和b之間(含)的概率。
參數(shù)重要性
我們之前提到,參數(shù)可以改變函數(shù)的輸出值,在概率分布上也是一樣。
上圖是兩個正態(tài)分布的概率密度函數(shù)的圖像。藍色分布的參數(shù)值為μ=0、σ=1,而紅色分布的參數(shù)值為μ=2、σ=0.5.
很明顯,使用錯誤的參數(shù)值會得到離你的期望相差很遠的結(jié)果。
總結(jié)
哇!這篇文章比我預(yù)想的要長很多。讓我們總結(jié)一下要點:
概率分布是結(jié)果及相應(yīng)概率的列表。
我們可以用表格羅列小分布的結(jié)果和概率,但大分布用函數(shù)概括更方便。
離散概率分布的表示函數(shù)稱為概率質(zhì)量函數(shù)。
連續(xù)概率分布的表示函數(shù)稱為概率密度函數(shù)。
表示概率分布的函數(shù)同樣遵循概率法則。
概率質(zhì)量函數(shù)的輸出是概率,概率密度函數(shù)曲線下面積表示概率。
概率函數(shù)的參數(shù)在定義隨機變量結(jié)果概率上起關(guān)鍵作用。
我原本打算在這篇文章中介紹多元分布的,但是因為本文已經(jīng)很長了,所以會在之后的文章中介紹。
現(xiàn)在你已經(jīng)初步理解了什么是概率分布,請閱讀Sean Owen的Common Probability Distributions: The Data Scientist’s Crib Sheet。如果想要了解更多概率分布,可以查看維基百科上的列表(相當(dāng)長的一個列表)。
一如既往地感謝閱讀本文。我希望這篇文章幫助你學(xué)到了一點東西。歡迎留言評論和提問。
-
函數(shù)
+關(guān)注
關(guān)注
3文章
4365瀏覽量
63898 -
概率
+關(guān)注
關(guān)注
0文章
17瀏覽量
13078
原文標(biāo)題:零基礎(chǔ)概率論入門:概率分布
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
什么是瑞利分布函數(shù)?什么是瑞利分布?
基于labview實現(xiàn)數(shù)據(jù)不同范圍的不同概率分布
概率統(tǒng)計-怎么對csv文件進行概率密度函數(shù)和累積分布函數(shù)
一種基帶GMSK信號相關(guān)器及其輸出概率分布
模2n加整體逼近模2 加產(chǎn)生的噪聲函數(shù)的概率分布研究
先驗概率和代價函數(shù)均模糊時基于貝葉斯最小風(fēng)險準(zhǔn)則的分布式?jīng)Q策

基于Wasserstein距離概率分布模型的非線性降維算法
光伏出力概率分布估計方法

風(fēng)電場群功率波動概率密度分布函數(shù)
常見概率分布背后的直覺及相互聯(lián)系
我們如何談?wù)?/b>人工智能的倫理
我們在談?wù)?/b>音質(zhì)的時候在談?wù)?/b>什么資料下載

機器學(xué)習(xí)中統(tǒng)計概率分布大全

評論