91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

抽樣的幾種常用方法以及在Python中是如何實現(xiàn)的

上海磐啟微電子有限公司 ? 來源:Python數(shù)據(jù)科學 ? 作者:Python數(shù)據(jù)科學 ? 2021-08-10 15:16 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

大家好,今天來和大家聊聊抽樣的幾種常用方法,以及在Python中是如何實現(xiàn)的。

抽樣是統(tǒng)計學、機器學習中非常重要,也是經(jīng)常用到的方法,因為大多時候使用全量數(shù)據(jù)是不現(xiàn)實的,或者根本無法取到。所以我們需要抽樣,比如在推斷性統(tǒng)計中,我們會經(jīng)常通過采樣的樣本數(shù)據(jù)來推斷估計總體的樣本。

上面所說的都是以概率為基礎(chǔ)的,實際上還有一類非概率的抽樣方法,因此總體上歸納為兩大種類:

概率抽樣:根據(jù)概率理論選擇樣本,每個樣本有相同的概率被選中。

非概率抽樣:根據(jù)非隨機的標準選擇樣本,并不是每個樣本都有機會被選中。

概率抽樣技術(shù)1.隨機抽樣(Random Sampling)

這也是最簡單暴力的一種抽樣了,就是直接隨機抽取,不考慮任何因素,完全看概率。并且在隨機抽樣下,總體中的每條樣本被選中的概率相等。

比如,現(xiàn)有10000條樣本,且各自有序號對應的,假如抽樣數(shù)量為1000,那我就直接從1-10000的數(shù)字中隨機抽取1000個,被選中序號所對應的樣本就被選出來了。

在Python中,我們可以用random函數(shù)隨機生成數(shù)字。下面就是從100個人中隨機選出5個。

import random

population = 100

data = range(population)

print(random.sample(data,5))

》 4, 19, 82, 45, 41

2.分層抽樣(Stratified Sampling)

分層抽樣其實也是隨機抽取,不過要加上一個前提條件了。在分層抽樣下,會根據(jù)一些共同屬性將帶抽樣樣本分組,然后從這些分組中單獨再隨機抽樣。

因此,可以說分層抽樣是更精細化的隨機抽樣,它要保持與總體群體中相同的比例。 比如,機器學習分類標簽中的類標簽0和1,比例為3:7,為保持原有比例,那就可以分層抽樣,按照每個分組單獨隨機抽樣。

Python中我們通過train_test_split設(shè)置stratify參數(shù)即可完成分層操作。

from sklearn.model_selection import train_test_split

stratified_sample, _ = train_test_split(population, test_size=0.9, stratify=population[[‘label’]])

print (stratified_sample)

3.聚類抽樣(Cluster Sampling)

聚類抽樣,也叫整群抽樣。它的意思是,先將整個總體劃分為多個子群體,這些子群體中的每一個都具有與總體相似的特征。也就是說它不對個體進行抽樣,而是隨機選擇整個子群體。

用Python可以先給聚類的群體分配聚類ID,然后隨機抽取兩個子群體,再找到相對應的樣本值即可,如下。

import numpy as np

clusters=5

pop_size = 100

sample_clusters=2# 間隔為 20, 從 1 到 5 依次分配集群100個樣本的聚類 ID,這一步已經(jīng)假設(shè)聚類完成

cluster_ids = np.repeat([range(1,clusters+1)], pop_size/clusters)

# 隨機選出兩個聚類的 ID

cluster_to_select = random.sample(set(cluster_ids), sample_clusters)

# 提取聚類 ID 對應的樣本

indexes = [i for i, x in enumerate(cluster_ids) if x in cluster_to_select]

# 提取樣本序號對應的樣本值

cluster_associated_elements = [el for idx, el in enumerate(range(1, 101)) if idx in indexes]

print (cluster_associated_elements)

4.系統(tǒng)抽樣(Systematic Sampling)

系統(tǒng)抽樣是以預定的規(guī)則間隔(基本上是固定的和周期性的間隔)從總體中抽樣。比如,每 9 個元素抽取一下。一般來說,這種抽樣方法往往比普通隨機抽樣方法更有效。

下圖是按順序?qū)γ?9 個元素進行一次采樣,然后重復下去。

用Python實現(xiàn)的話可以直接在循環(huán)體中設(shè)置step即可。

population = 100

step = 5

sample = [element for element in range(1, population, step)]

print (sample)

5.多級采樣(Multistage sampling)

在多階段采樣下,我們將多個采樣方法一個接一個地連接在一起。比如,在第一階段,可以使用聚類抽樣從總體中選擇集群,然后第二階段再進行隨機抽樣,從每個集群中選擇元素以形成最終集合。

Python代碼復用了上面聚類抽樣,只是在最后一步再進行隨機抽樣即可。

import numpy as np

clusters=5

pop_size = 100

sample_clusters=2

sample_size=5# 間隔為 20, 從 1 到 5 依次分配集群100個樣本的聚類 ID,這一步已經(jīng)假設(shè)聚類完成

cluster_ids = np.repeat([range(1,clusters+1)], pop_size/clusters)

# 隨機選出兩個聚類的 ID

cluster_to_select = random.sample(set(cluster_ids), sample_clusters)

# 提取聚類 ID 對應的樣本

indexes = [i for i, x in enumerate(cluster_ids) if x in cluster_to_select]

# 提取樣本序號對應的樣本值

cluster_associated_elements = [el for idx, el in enumerate(range(1, 101)) if idx in indexes]

# 再從聚類樣本里隨機抽取樣本print (random.sample(cluster_associated_elements, sample_size))

非概率抽樣技術(shù)非概率抽樣,毫無疑問就是不考慮概率的方式了,很多情況下是有條件的選擇。因此,對于無隨機性我們是無法通過統(tǒng)計概率和編程來實現(xiàn)的。這里也介紹3種方法。

1.簡單采樣(convenience sampling)

簡單采樣,其實就是研究人員只選擇最容易參與和最有機會參與研究的個體。比如下面的圖中,藍點是研究人員,橙色點則是藍色點附近最容易接近的人群。

2.自愿抽樣(Voluntary Sampling)

自愿抽樣下,感興趣的人通常通過填寫某種調(diào)查表格形式自行參與的。所以,這種情況中,調(diào)查的研究人員是沒有權(quán)利選擇任何個體的,全憑群體的自愿報名。比如下圖中藍點是研究人員,橙色的是自愿同意參與研究的個體。

3.雪球抽樣(Snowball Sampling)

雪球抽樣是說,最終集合是通過其他參與者選擇的,即研究人員要求其他已知聯(lián)系人尋找愿意參與研究的人。比如下圖中藍點是研究人員,橙色的是已知聯(lián)系人,黃色是是橙色點周圍的其它聯(lián)系人。

總結(jié)以上就是8種常用抽樣方法,平時工作中比較常用的還是概率類抽樣方法,因為沒有隨機性我們是無法通過統(tǒng)計學和編程完成自動化操作的。

比如在信貸的風控樣本設(shè)計時,就需要從樣本窗口通過概率進行抽樣。因為采樣的質(zhì)量基本就決定了你模型的上限了,所以在抽樣時會考慮很多問題,如樣本數(shù)量、是否有顯著性、樣本穿越等等。在這時,一個良好的抽樣方法是至關(guān)重要的。

參考:

[2] https://towardsdatascience.com/8-types-of-sampling-techniques-b21adcdd2124

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7261

    瀏覽量

    92216
  • 機器學習
    +關(guān)注

    關(guān)注

    66

    文章

    8510

    瀏覽量

    134841
  • python
    +關(guān)注

    關(guān)注

    56

    文章

    4831

    瀏覽量

    87320

原文標題:基于 Python 的 8 種常用抽樣方法

文章出處:【微信號:gh_6a53af9e8109,微信公眾號:上海磐啟微電子有限公司】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    基礎(chǔ)篇3:掌握Python的條件語句與循環(huán)

    Python編程語言中,條件語句和循環(huán)是構(gòu)成復雜邏輯和數(shù)據(jù)處理的基石。本篇基礎(chǔ)教程將幫助您深入了解Python的條件語句和循環(huán)結(jié)構(gòu),讓您能夠更好地控制程序流程。 條件語句 條件語句
    發(fā)表于 07-03 16:13

    在線測徑儀100%全檢替代抽樣檢測!開啟工業(yè)質(zhì)檢智能時代!

    傳統(tǒng)的線棒管材生產(chǎn)過程抽樣檢測的滯后性與隨機性導致質(zhì)量隱患頻發(fā),漏檢、誤判造成的經(jīng)濟損失高達行業(yè)總成本的5%-10%。在線測徑儀憑借全流程自動化檢測技術(shù),以每秒2000次的高頻測量能力,
    發(fā)表于 04-17 14:14

    Python嵌入式系統(tǒng)的應用場景

    你想把你的職業(yè)生涯提升到一個新的水平?Python嵌入式系統(tǒng)中正在成為一股不可缺少的新力量。盡管傳統(tǒng)上嵌入式開發(fā)更多地依賴于C和C++語言,Python的優(yōu)勢在于其簡潔的語法、豐富的庫和快速的開發(fā)周期,這使得它在某些嵌入式場景
    的頭像 發(fā)表于 03-19 14:10 ?783次閱讀

    使用Python實現(xiàn)xgboost教程

    使用Python實現(xiàn)XGBoost模型通常涉及以下幾個步驟:數(shù)據(jù)準備、模型訓練、模型評估和模型預測。以下是一個詳細的教程,指導你如何在Python中使用XGBoost。 1. 安裝XGBoost
    的頭像 發(fā)表于 01-19 11:21 ?1410次閱讀

    ADS1115單詞轉(zhuǎn)換時間最短也需要1.2ms左右,請問其抽樣時間啟動采樣多久后完成?

    ADS1115單詞轉(zhuǎn)換時間最短也需要1.2ms左右。請問其抽樣時間啟動采樣多久后完成? 當前項目中為了維持ADC前端信號,將激發(fā)光源開啟了2ms左右 導致功耗較高。如果可以確定其抽樣時間,是否又可以
    發(fā)表于 01-02 07:01

    Pythondict支持多個key的方法

    ? Python,字典(dict)是一種非常強大的數(shù)據(jù)結(jié)構(gòu),它允許我們通過鍵(key)來存儲和檢索值(value)。有時候,我們可能想要根據(jù)多個鍵來檢索或操作字典的數(shù)據(jù)。雖然
    的頭像 發(fā)表于 11-29 15:59 ?561次閱讀

    邏輯異或運算符Python的用法

    Python的 ^ 符號實際上是一個按位異或運算符,用于對整數(shù)的二進制表示進行異或操作。 盡管如此,我們?nèi)匀豢梢酝ㄟ^一些方法實現(xiàn)邏輯異或的功能,即當兩個布爾值不同時為真,相同時為
    的頭像 發(fā)表于 11-19 09:46 ?907次閱讀

    如何使用Python實現(xiàn)PID控制

    PID控制(比例-積分-微分控制)是一種常見的反饋控制算法,廣泛應用于工業(yè)控制系統(tǒng)Python實現(xiàn)PID控制,我們可以遵循以下步驟:
    的頭像 發(fā)表于 11-14 09:09 ?1658次閱讀

    Python常用函數(shù)大全

    Python 世界里,有一些寶藏函數(shù)和模塊,它們可以讓你編程更輕松、代碼更高效。這篇文章將帶你一一認識這些神器,讓你的開發(fā)生活瞬間輕松不少!
    的頭像 發(fā)表于 10-27 17:20 ?975次閱讀

    Python多線程和多進程的區(qū)別

    Python作為一種高級編程語言,提供了多種并發(fā)編程的方式,其中多線程與多進程是最常見的兩種方式之一。本文中,我們將探討Python多線程與多進程的概念、區(qū)別
    的頭像 發(fā)表于 10-23 11:48 ?1070次閱讀
    <b class='flag-5'>Python</b><b class='flag-5'>中</b>多線程和多進程的區(qū)別

    室內(nèi)北斗定位系統(tǒng)常用幾種定位方式

    隨著科技的不斷進步,室內(nèi)定位技術(shù)日益成熟,為人們的日常生活和工作帶來了極大的便利。特別是在室內(nèi)環(huán)境,北斗衛(wèi)星定位系統(tǒng)通過一系列創(chuàng)新技術(shù),實現(xiàn)了高精度、高可靠的定位服務(wù)。接下來就由深圳滄穹科技給大家具體介紹室內(nèi)北斗定位系統(tǒng)常用
    的頭像 發(fā)表于 09-23 10:00 ?1394次閱讀

    幾種常用的共模電感磁芯類型

    電子發(fā)燒友網(wǎng)站提供《幾種常用的共模電感磁芯類型.docx》資料免費下載
    發(fā)表于 09-20 11:27 ?0次下載

    環(huán)路測試方法有哪幾種

    。環(huán)路測試的目的是確保循環(huán)能夠正確地開始、執(zhí)行和終止,以及循環(huán)內(nèi)部的邏輯是否正確。 環(huán)路測試通常包括以下幾種方法: 基本路徑測試 :這是最基礎(chǔ)的環(huán)路測試方法,它關(guān)注于測試循環(huán)的基本執(zhí)
    的頭像 發(fā)表于 09-12 14:35 ?1878次閱讀

    CC2640Beacon應用實現(xiàn)方法

    電子發(fā)燒友網(wǎng)站提供《CC2640Beacon應用實現(xiàn)方法.pdf》資料免費下載
    發(fā)表于 09-10 14:30 ?0次下載
    CC2640<b class='flag-5'>在</b>Beacon應用<b class='flag-5'>中</b>的<b class='flag-5'>實現(xiàn)</b><b class='flag-5'>方法</b>

    單片機幾種環(huán)形緩沖區(qū)的分析和實現(xiàn)

    單片機幾種環(huán)形緩沖區(qū)的分析和實現(xiàn)一、簡介環(huán)形緩沖區(qū)(RingBuffer)是一種高效的使用內(nèi)存的方法,它將一段固定長度的內(nèi)存看成一個環(huán)形結(jié)構(gòu),用于存儲數(shù)據(jù),能夠避免使用動態(tài)申請內(nèi)存
    的頭像 發(fā)表于 08-14 08:39 ?1836次閱讀
    單片機<b class='flag-5'>中</b>的<b class='flag-5'>幾種</b>環(huán)形緩沖區(qū)的分析和<b class='flag-5'>實現(xiàn)</b>
    主站蜘蛛池模板: 欧美色图色就是色 | 手机精品视频在线观看免费 | 午夜寂寞影院视频观看 | 欧美日韩国产在线一区 | 国产婷婷一区二区三区 | 天堂资源中文在线 | 天堂激情 | 天堂视频在线视频观看2018 | 欧美一级黄视频 | 日本三级精品 | 欧美第四色 | 天天cao在线 | 7086bt伙计 福利一区 | 手机看片1024欧美 | 在线天堂中文有限公司 | 夜夜骑狠狠干 | 国产精品japanese人妖 | 国产在线99| 亚洲第一黄色网址 | 女人张腿让男子桶免费动态图 | 国产一区二区三区波多野吉衣 | 韩国三级在线视频 | 一级视频在线免费观看 | 久久人人网 | 天堂电影免费在线观看 | 97伊人久久 | 久久美女免费视频 | 亚洲日本视频 | 国产综合在线观看视频 | 一区二区三区高清视频在线观看 | 亚洲欧美圣爱天天综合 | 性夜影院爽黄a爽免费视频 性瘾高h姚蕊全文免费阅读 | 中文字幕一精品亚洲无线一区 | 扒开双腿疯狂进出爽爽爽 | 中文字幕亚洲天堂 | 国内一国产农村妇女一级毛片 | 濑亚美莉iptd619在线观看 | 国产欧美视频在线 | 国产a三级三级三级 | 午夜国产精品福利在线观看 | 欧美xxxx色视频在线观看 |