91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

可視化數據科學中的概率分布可幫你更好地理解各種分布

電子設計 ? 來源:電子設計 ? 作者:電子設計 ? 2020-12-14 23:07 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在某些分布假設下,某些機器學習模型被設計為最佳工作。因此,了解我們正在使用哪個發行版可以幫助我們確定最適合使用哪些模型。

介紹

擁有良好的統計背景可能對數據科學家的日常生活大有裨益。每次我們開始探索新的數據集時,我們首先需要進行探索性數據分析(EDA),以了解某些功能的主要特征是什么。如果我們能夠了解數據分布中是否存在任何模式,則可以量身定制最適合我們的案例研究的機器學習模型。這樣,我們將能夠在更短的時間內獲得更好的結果(減少優化步驟)。實際上,某些機器學習模型被設計為在某些分布假設下效果最佳。因此,了解我們正在使用哪些發行版可以幫助我們確定最適合使用哪些模型。

同類型的數據

我們正在與一個數據集工作,每次,我們的數據代表一個樣本人口。然后,使用此樣本,我們可以嘗試了解其主要模式,以便我們可以使用它對整個人口進行預測(即使我們從未有機會檢查整個人口)。

假設我們要根據一組特定功能來預測房屋的價格。我們也許可以在線找到一個包含舊金山所有房價的數據集(我們的樣本),并且進行一些統計分析之后,我們也許可以對美國任何其他城市的房價做出相當準確的預測(我們的人口)。

數據集由兩種主要類型的數據組成:數字(例如整數,浮點數)和分類(例如名稱,筆記本電腦品牌)。

數值數據還可以分為其他兩類:離散繼續。離散數據只能采用某些值(例如學校中的學生人數),而連續數據可以采用任何實數或分數值(例如身高和體重的概念)。

從離散隨機變量中,可以計算出概率質量函數,而從連續隨機變量中,可以得出概率密度函數

概率質量函數給出了一個變量可以等于某個值的概率,相反,概率密度函數的值本身并不是概率,因為它們首先需要在給定范圍內進行積分。

自然界中存在許多不同的概率分布(概率分布流程圖),在本文中,我將向您介紹數據科學中最常用的概率分布。

首先,讓我們導入所有必需的庫:

伯努利分布

伯努利分布是最容易理解的分布之一,可用作導出更復雜分布的起點。

這種分布只有兩個可能的結果和一個試驗。

一個簡單的例子可以是拋擲偏斜/無偏硬幣。在此示例中,可以認為結果可能是正面的概率等于p,而對于反面則是(1-p)(包含所有可能結果的互斥事件的概率總和為1)。

在下圖中,我提供了一個偏向硬幣情況下伯努利分布的例子。

均勻分布

均勻分布可以很容易地從伯努利分布中得出。在這種情況下,結果的數量可能不受限制,并且所有事件的發生概率均相同。

例如,想象一下一個骰子的擲骰。在這種情況下,存在多個可能的事件,每個事件都有相同的發生概率。

二項分布

二項分布可以被認為是遵循伯努利分布的事件結果的總和。因此,二項分布用于二元結果事件,成功和失敗的可能性在所有后續試驗中均相同。此分布采用兩個參數作為輸入:事件發生的次數和分配給兩個類別之一的概率。

一個實際的二項式分布的簡單示例可以是重復一定次數的有偏/無偏硬幣的拋擲。

改變偏差量將改變分布的外觀(如下圖所示)。

二項分布的主要特征是:

  • 給定多個試驗,每個試驗彼此獨立(一項試驗的結果不會影響另一項試驗)。
  • 每個試驗只能導致兩個可能的結果(例如,獲勝或失敗),其概率分別為p(1- p)

如果給出成功的概率(p)和試驗次數(n),則可以使用以下公式計算這n次試驗中的成功概率(x)(下圖)。

正態(高斯)分布

正態分布是數據科學中最常用的分布之一。我們日常生活中發生的許多常見現象都遵循正態分布,例如:經濟中的收入分布,學生的平均報告,人口的平均身高等。此外,小的隨機變量的總和還導致:通常遵循正態分布(中心極限定理)。

“在概率論中,中心極限定理CLT)確定,在某些情況下,當添加獨立隨機變量時,即使原始變量本身未呈正態分布,其適當歸一化的和也趨于正態分布。”

—維基百科

可以幫助我們識別正態分布的一些特征是:

  • 曲線在中心對稱。因此,均值,眾數和中位數都等于相同的值,從而使所有值圍繞均值對稱分布。
  • 分布曲線下的面積等于1(所有概率之和必須等于1)。

可以使用以下公式得出正態分布(下圖)。

使用正態分布時,分布平均值和標準偏差起著非常重要的作用。如果我們知道它們的值,則只需檢查概率分布即可輕松找出預測精確值的概率(下圖)。實際上,由于分布特性,68%的數據位于平均值的一個標準偏差范圍內,95%的數據位于平均值的兩個標準偏差范圍內,99.7%的數據位于平均值的三個標準偏差范圍內。

許多機器學習模型被設計為遵循正態分布的最佳使用數據。一些例子是:

  • 高斯樸素貝葉斯分類器
  • 線性判別分析
  • 二次判別分析
  • 基于最小二乘的回歸模型

此外,在某些情況下,還可以通過應用對數和平方根之類的轉換將非正常數據轉換為正常形式。

泊松分布

泊松分布通常用于查找事件可能發生或不知道事件通常發生的頻率。此外,泊松分布還可用于預測事件在給定時間段內可能發生多少次。

例如,保險公司經常使用泊松分布來進行風險分析(例如,在預定時間范圍內預測車禍事故的數量),以決定汽車保險的價格。

當使用Poisson Distributions時,我們可以確信發生不同事件之間的平均時間,但是事件發生的確切時刻在時間上是隨機間隔的。

泊松分布可以使用以下公式建模(下圖),其中λ表示一個時期內可能發生的預期事件數。

描述泊松過程的主要特征是:

  1. 事件彼此獨立(如果事件發生,則不會改變另一個事件發生的可能性)。
  2. 一個事件可以發生任何次數(在定義的時間段內)。
  3. 兩個事件不能同時發生。
  4. 事件發生之間的平均速率是恒定的。

在下圖中,顯示了改變周期(λ)中可能發生的事件的預期數目如何改變泊松分布。

指數分布

最后,指數分布用于對不同事件發生之間的時間進行建模。

舉例來說,假設我們在一家餐廳工作,并且希望預測到到不同顧客進入餐廳之間的時間間隔。針對此類問題使用指數分布,可能是一個理想的起點。

指數分布的另一個常見應用是生存分析(例如,設備/機器的預期壽命)。

指數分布由參數λ調節。λ值越大,指數曲線到十年的速度就越快(下圖)。

指數分布使用以下公式建模(下圖)。

如果你喜歡本文的話,歡迎點贊轉發!謝謝。

看完別走還有驚喜!

我精心整理了計算機/Python/機器學習/深度學習相關的2TB視頻課與書籍,價值1W元。關注微信公眾號“計算機與AI”,點擊下方菜單即可獲取網盤鏈接。

?審核編輯:符乾江

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據挖掘
    +關注

    關注

    1

    文章

    406

    瀏覽量

    24706
  • 機器學習
    +關注

    關注

    66

    文章

    8503

    瀏覽量

    134598
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    如何使用協議分析儀進行數據分析與可視化

    使用協議分析儀進行數據分析與可視化,需結合數據捕獲、協議解碼、統計分析及可視化工具,將原始數據轉化為
    發表于 07-16 14:16

    結構可視化:利用數據編輯器剖析數據內在架構?

    結構可視化聚焦于展示數據的內部結構和各部分之間的關系,使企業能夠深入理解數據的組織方式和層次體系,從而更好地進行數據管理和分析。通過結構
    的頭像 發表于 05-07 18:42 ?205次閱讀

    可視化組態物聯網平臺是什么

    可視化組態物聯網平臺是物聯網技術與組態技術相結合的產物,是通過提供豐富的圖形組件和可視化元素,讓用戶能夠以直觀、便捷的方式對物聯網數據進行監控、分析和管理的平臺。以下是其具體介紹:
    的頭像 發表于 04-21 10:40 ?292次閱讀

    VirtualLab Fusion可視化設置

    摘要 VirtualLab Fusion的全局選項對話框可以輕松定制軟件的外觀和感覺。還可以保存和加載全局選項文件,以便可以輕松地將偏好設置從一個設備轉移到另一個設備。本文檔說明了與可視化和結果
    發表于 02-25 08:51

    薄膜壓力分布測量系統鞋墊式足底壓力分布測試

    引言: 鞋墊式足底壓力分布測試系統是一種基于傳感器技術的高科技設備,通過嵌入鞋墊的壓力傳感器,實時采集足底各個部位的壓力數據,并將數據傳輸到分析軟件中進行處理和
    的頭像 發表于 02-24 16:24 ?468次閱讀
    薄膜壓力<b class='flag-5'>分布</b>測量系統鞋墊式足底壓力<b class='flag-5'>分布</b>測試

    七款經久不衰的數據可視化工具!

    量的激增,單純通過數字和文本來分析數據已不再高效。數據可視化則提供了一種直觀、互動性強的方式,幫助人們通過視覺元素,如柱狀圖、折線圖、餅圖、熱力圖等圖表形式,理解復雜的
    發表于 01-19 15:24

    “一鍵尋閥”拓撲數據可視化,管網分布監控 #拓撲 #數據可視化 #管網分布

    數據可視化
    阿梨是蘋果
    發布于 :2024年12月31日 14:44:36

    什么是大屏數據可視化?特點有哪些?

    大屏數據可視化是指通過大屏幕展示大量數據和信息,以直觀、可視化的方式幫助用戶理解和分析數據。這種
    的頭像 發表于 12-16 16:59 ?685次閱讀

    如何找到適合的大屏數據可視化系統

    選擇合適的大屏數據可視化系統是企業或組織在數字轉型過程至關重要的一步。一個優秀的大屏數據可視化
    的頭像 發表于 12-13 15:47 ?484次閱讀

    Minitab 數據可視化技巧

    數據分析領域,數據可視化是一種將數據以圖形或圖像的形式展示出來的技術,它可以幫助我們更直觀地理解數據,發現
    的頭像 發表于 12-02 15:40 ?1399次閱讀

    智慧能源可視化監管平臺——助力可視化能源數據管理

    博達可視化大屏設計平臺在智慧能源領域的價值體現在實時監控、數據可視化、決策支持和效率提升等方面。借助該平臺,企業可以輕松搭建智慧能源類可視化大屏,更加精確和高效地管理生產和生活,實現能
    的頭像 發表于 11-29 10:00 ?946次閱讀
    智慧能源<b class='flag-5'>可視化</b>監管平臺——助力<b class='flag-5'>可視化</b>能源<b class='flag-5'>數據</b>管理

    智慧樓宇可視化的優點

    智慧樓宇可視化是指通過數據可視化技術來展示和分析樓宇的各種數據,為樓宇管理者和用戶提供直觀、清晰的信息展示和決策支持。以下是智慧樓宇可視化
    的頭像 發表于 11-19 14:25 ?479次閱讀

    智慧園區數據可視化優勢體現在哪些地方

    、地圖、儀表盤等形式呈現數據,使復雜的數據變得直觀易懂,幫助用戶更快速、準確地理解數據。 2.實時監控與反饋:數據可視化工具可以實時監測園區
    的頭像 發表于 11-15 10:30 ?517次閱讀
    智慧園區<b class='flag-5'>數據</b><b class='flag-5'>可視化</b>優勢體現在哪些地方

    三維可視化運用的主要技術

    三維可視化技術是一種強大的工具,可用于呈現復雜的數據和概念,使人們能夠更直觀地理解信息。在當今數字化時代,三維可視化已經成為許多領域中不可或缺的技術,包括工程、醫學、
    的頭像 發表于 07-19 13:56 ?639次閱讀

    三維可視化的魅力與應用

    三維可視化是一種強大的工具,它融合了藝術、科學和技術,通過在三維空間中呈現數據、概念和想法,為人們提供了一種直觀而生動的方式來理解和探索信息。這項技術在當今世界
    的頭像 發表于 07-17 14:19 ?554次閱讀
    主站蜘蛛池模板: 欧美成人免费观看bbb | 久久久久久夜精品精品免费啦 | 性夜影院爽黄a爽免费视频 性瘾高h姚蕊全文免费阅读 | 四虎国产永久免费久久 | 日日干夜夜爽 | 久久久久久久久久久观看 | 国产一级特黄的片子 | 成年女人色费视频免费 | 久久99爰这里有精品国产 | 天堂网www天堂在线网 | 国产精品久久久久久福利 | 神马影院午夜在线 | 视频在线免费看 | 台湾av| 成片一卡三卡四卡免费网站 | 一区二区三区四区国产精品 | 97天天干| 日本中文字幕在线播放 | 666夜色666夜色国产免费看 | 国语对白一区二区三区 | 日韩插插 | 四虎4hu永久免费国产精品 | 色噜噜色偷偷 | 日韩精品一卡二卡三卡四卡2021 | 免费香蕉视频国产在线看 | 天天看天天爽 | 日日噜噜噜夜夜爽爽狠狠视频 | 好男人www社区影视在线 | 亚洲福利在线视频 | 丁香六月色婷婷 | 免费看污黄视频软件 | 一级骚片超级骚在线观看 | 成 黄 色 激 情视频网站 | 性色aⅴ闺蜜一区二区三区 性色成人网 | 婷婷国产在线 | 女人爽到喷水的视频大全在线观看 | www色午夜| 男人的午夜天堂 | 日本久本草精品 | 日韩毛片大全 | 在线一区二区三区 |