有声读物,玄幻小说完本,风凌天下

今天來和大家聊聊抽樣的幾種常用方法，以及在Python中是如何實現的。抽樣是統計學、機器學習中非常重要，也是經常用到的方法，因為大多時候使用全量數據是不現實的，或者根本無法取到。所以我們需要抽樣，比如在推斷性統計中，我們會經常通過采樣的樣本數據來推斷估計總體的樣本。上面所說的都是以概率為基礎的，實際上還有一類非概率的抽樣方法，因此總體上歸納為兩大種類：

概率抽樣：根據概率理論選擇樣本，每個樣本有相同的概率被選中。

非概率抽樣：根據非隨機的標準選擇樣本，并不是每個樣本都有機會被選中。

概率抽樣技術

1.隨機抽樣(Random Sampling)

這也是最簡單暴力的一種抽樣了，就是直接隨機抽取，不考慮任何因素，完全看概率。并且在隨機抽樣下，總體中的每條樣本被選中的概率相等。比如，現有10000條樣本，且各自有序號對應的，假如抽樣數量為1000，那我就直接從1-10000的數字中隨機抽取1000個，被選中序號所對應的樣本就被選出來了。在Python中，我們可以用random函數隨機生成數字。下面就是從100個人中隨機選出5個。

importrandom population=100 data=range(population) print(random.sample(data,5)) >4,19,82,45,41

2.分層抽樣(Stratified Sampling)

分層抽樣其實也是隨機抽取，不過要加上一個前提條件了。在分層抽樣下，會根據一些共同屬性將帶抽樣樣本分組，然后從這些分組中單獨再隨機抽樣。 因此，可以說分層抽樣是更精細化的隨機抽樣，它要保持與總體群體中相同的比例。 比如，機器學習分類標簽中的類標簽0和1，比例為3:7，為保持原有比例，那就可以分層抽樣，按照每個分組單獨隨機抽樣。 Python中我們通過train_test_split設置stratify參數即可完成分層操作。

fromsklearn.model_selectionimporttrain_test_split stratified_sample,_=train_test_split(population,test_size=0.9,stratify=population[['label']]) print(stratified_sample)

3.聚類抽樣(Cluster Sampling)

聚類抽樣，也叫整群抽樣。它的意思是，先將整個總體劃分為多個子群體，這些子群體中的每一個都具有與總體相似的特征。也就是說它不對個體進行抽樣，而是隨機選擇整個子群體。用Python可以先給聚類的群體分配聚類ID，然后隨機抽取兩個子群體，再找到相對應的樣本值即可，如下。

importnumpyasnp clusters=5 pop_size=100 sample_clusters=2 #間隔為20,從1到5依次分配集群100個樣本的聚類ID，這一步已經假設聚類完成 cluster_ids=np.repeat([range(1,clusters+1)],pop_size/clusters) #隨機選出兩個聚類的ID cluster_to_select=random.sample(set(cluster_ids),sample_clusters) #提取聚類ID對應的樣本 indexes=[ifori,xinenumerate(cluster_ids)ifxincluster_to_select] #提取樣本序號對應的樣本值 cluster_associated_elements=[elforidx,elinenumerate(range(1,101))ifidxinindexes] print(cluster_associated_elements)

4.系統抽樣(Systematic Sampling)

系統抽樣是以預定的規則間隔（基本上是固定的和周期性的間隔）從總體中抽樣。比如，每 9 個元素抽取一下。一般來說，這種抽樣方法往往比普通隨機抽樣方法更有效。下圖是按順序對每 9 個元素進行一次采樣，然后重復下去。用Python實現的話可以直接在循環體中設置step即可。

population=100 step=5 sample=[elementforelementinrange(1,population,step)] print(sample)

5.多級采樣(Multistage sampling)

在多階段采樣下，我們將多個采樣方法一個接一個地連接在一起。比如，在第一階段，可以使用聚類抽樣從總體中選擇集群，然后第二階段再進行隨機抽樣，從每個集群中選擇元素以形成最終集合。 Python代碼復用了上面聚類抽樣，只是在最后一步再進行隨機抽樣即可。

importnumpyasnp clusters=5 pop_size=100 sample_clusters=2 sample_size=5 #間隔為20,從1到5依次分配集群100個樣本的聚類ID，這一步已經假設聚類完成 cluster_ids=np.repeat([range(1,clusters+1)],pop_size/clusters) #隨機選出兩個聚類的ID cluster_to_select=random.sample(set(cluster_ids),sample_clusters) #提取聚類ID對應的樣本 indexes=[ifori,xinenumerate(cluster_ids)ifxincluster_to_select] #提取樣本序號對應的樣本值 cluster_associated_elements=[elforidx,elinenumerate(range(1,101))ifidxinindexes] #再從聚類樣本里隨機抽取樣本 print(random.sample(cluster_associated_elements,sample_size))

非概率抽樣技術

非概率抽樣，毫無疑問就是不考慮概率的方式了，很多情況下是有條件的選擇。因此，對于無隨機性我們是無法通過統計概率和編程來實現的。這里也介紹3種方法。

1.簡單采樣(convenience sampling)

簡單采樣，其實就是研究人員只選擇最容易參與和最有機會參與研究的個體。比如下面的圖中，藍點是研究人員，橙色點則是藍色點附近最容易接近的人群。