在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

什么是辛普森悖論?辛普森悖論的重要性

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-10-23 09:02 ? 次閱讀

對于數據科學家而言,了解統計現象和問“為什么”是非常重要的。

想象這樣一個場景:一天,你和朋友約好了一起吃晚飯,你們倆都想找一家完美的餐廳。由于選項太多,兩人今天的口味也不一定一樣,為了避免長達數小時的爭論,你們保守地采用了現代人常用的一種方法:查看美食評論。

在用同一個APP看了所有餐廳后,最終你們鎖定了其中的兩家:Carlo's餐廳和Sophia餐廳。你更喜歡Carlo's,因為從兩性數據上看來,無論是男性用餐者還是女性用餐者,他們給出的好評率都更高(例:男性好評率=男性好評數/男性評論總數);而你的朋友更傾向于Sophia,因為他發現從整體上來看,Sophia的好評率更高,口味應該更大眾。

那么這到底是怎么回事?是APP統計錯誤了嗎?事實上,這兩個統計結論都是正確的,只是你們在不知不覺中已經走進了辛普森悖論。在這里,我們能用完全相同的一組數據證明兩個全然相反的論點。

什么是辛普森悖論?

辛普森悖論得名于英國統計學家E.H.辛普森(E.H.Simpson),這是他于1951年闡述的一種現象:當我們以分組和聚合兩種方式統計同一數據集時,最后得出的兩個趨勢可能是完全逆轉的。在上面這個“吃飯”案例中,Carlo's餐廳的兩性推薦率更高,但它的總體推薦率卻低了。如果不想被繞暈,我們可以用一些直觀的數據來說明:

上表清楚地表明,當數據分組時,Carlo's是首選,但是當數據合并時,Sophia是首選!

導致這一悖論的原因是樣本大小。當我們分組統計數據時,Carlo's餐廳的女性推薦率高達90%,但它的樣本只有40個,只占總評論人數的10%;而Sophia餐廳的女性推薦率雖然只有80%,但女性評論者有250個,這顯然會大幅拉高餐廳的總體好評率。

所以在挑選餐廳時,我們事先要確定數據的統計方法,是合并更合理,還是分組更合理——這取決于數據生成的過程,即數據的因果模型。

相關性的逆轉

在我們的生活中,另一種常見的辛普森悖論是分組、聚合討論數據后,元素之間的相關性也出現了逆轉。舉一個簡單的例子,假設我們有50歲以上和50歲以下兩組患者,在收集了他們的每周運動小時數和病發風險后,我們得到了下面兩幅有關運動和病情惡化幾率關系的圖表:

左:50歲以下;右:50歲以上(橫坐標為運動小時數,縱坐標為惡化風險)

上圖很清楚地表明兩者是負相關的,每周運動得越久,患者病情惡化的可能性就更低。但是,如果我們把兩組數據結合在一起:

全年齡段患者的運動小時數和病情惡化幾率關系圖

運動和病情惡化的相關性就完全逆轉了!如果只呈現這一幅圖,最后我們得出的結論會是運動增加惡化幾率。同一組數據,截然不同的結論,同樣的,這個例子的問題也在于數據生成過程——我們沒能收集完整的成因數據,自然也解釋不了最終結果。

解決悖論

為了避免辛普森的悖論導致我們得出兩個相反的結論,最直接的方法是決定分組還是聚合。這看起來很簡單,但做起來并不容易。要做對選擇題,首先我們要考慮因果關系:數據是怎么產生的?影響結果的因素有哪些?其中有哪些是我們沒有呈現的?

以運動和病情惡化的分析為例,很明顯,運動肯定不是影響病情加重的唯一因素,飲食、環境、遺傳……它的影響因素非常復雜。但在上圖中,我們只看到了惡化幾率和運動時長之間的關系,在沒有控制變量的情況下,這相當于假設惡化只是由運動引起的,顯然不合理。

例如,如果我們考慮了原數據中被忽略的那個因素:年齡。

通過下圖我們可以發現,無論是50歲以下還是50歲以上,患者的年齡和病情惡化幾率都顯示出強烈正相關。這意味著隨著患者年齡增加,即便每周運動量相同,老年患者也比年輕患者更容易病情惡化。

患者年齡和病情惡化幾率關系圖

在這種情況下,分組討論數據是規避辛普森悖論的一種方式。這和做科學實驗一樣,但凡數據間涉及因果關系,我們都應該在分析之前控制好變量,確保數據的合理分層。

而在選餐廳那個例子中,解決悖論的方法是重新審視自己想要解決的問題——既然目標是選擇完美的餐廳,力求口味大眾化,避免踩雷,那分性別統計就意義不大了。在那種情況下,聚合數據最有意義。

現實生活中的辛普森悖論

看到這里,也許有的讀者會覺得這個悖論太簡單了,它應該就只是統計學里的一個概念,不可能有人會犯這種錯。但事實上,在現實世界中,我們確實也有許多著名的辛普森悖論研究案例。

一個比較典型的例子是兩種腎結石治療方案的取舍。根據臨床實驗數據,醫生發現在治療小結石和大結石時,方案A都有更好的效果;但是如果綜合兩種腎結石來看,方案B的治愈率更高。下面是具體數據:

如果是你,你會選哪種治療方案?這個問題要結合醫療領域的數據生成過程——因果模型。在實際操作中,就病情嚴重情況而言,大結石肯定比小結石嚴重得多,而方案A比方案B更具侵入性(醫學上帶有一定創傷性的治療措施)。因此,如果患者的腎結石很小,醫生一般會保守起見,采用方案B;而如果患者的腎結石很大,醫生就會直接用效果最好的方案A。

由于方案A更適用于嚴重病例,它的總體治愈率肯定會低于方案B。

我們把這個例子中的“病情嚴重性”稱為混淆變量,因為它和自變量(治療方案)、因變量(治愈)均相關。我們是沒法從數據中直接看到這個變量的,但如果繪制了因果關系圖,一切就很明確了:

因果關系圖和混淆變量

如上圖所示,兩種方案的治愈率都受所選擇的治療方案和結石大小影響,而選擇治療方案本身也受結石大小影響。這意味著如果要做全面定量實驗,我們必須控制結石大小,比較兩種方案的治愈率情況。根據實驗結果,方案A的效果更好。

如果不做實驗,我們換一種思路也能解答這個問題。如果患者的結石較小,治愈率更高的方案A更好;如果患者的結石較大,還是方案A更好。由于患者肯定會有或大或小的結石,綜合來看,選擇方案A肯定是效果最好的。

有時候,查看聚合數據很有用,但在一些情況下,它也可能模糊事件的真相。

另一個現實案例

第二個現實案例是政治觀點上的辛普森悖論。下表是杰拉爾德·福特擔任美國總統期間的稅收、稅率變化,可以發現,從1974年到1978年,每個收入群體的稅率都不同程度下降了,但社會整體稅率卻提高了。

所有個人稅率均下降,但整體稅率上升

根據前面的介紹,讀到這里,相信大家應該已經學會了該如何解釋這個悖論:尋找影響整體稅率的其他因素。社會整體稅率是兩個因子的函數,它和各收入群體的稅率有關,也和各收入群體的總收入金額相關。1978年,美國由于通貨膨脹導致居民工資出現顯著增長,國民整體收入提高,再加上高收入群體稅率降低少,全國的整體稅率實際上是提高了。

除了數據生成過程之外,是否匯總數據還應取決于我們想要回答的問題。仍以稅收的例子為例,在個人層面上,我們只是個人,所以只關心自己的稅率。但為了確定自己是不是多交稅了,除了觀察稅率變化,我們還應該留意工資的增長情況。影響稅率的重要因素有兩個,而表格只提供了其中一個,由此得出的統計結果是不準確的。

辛普森悖論的重要性

辛普森悖論非常重要,因為它時刻在提醒我們,表格中顯示的數據可能并不是所有數據。我們不能只滿足于數字、數據,而必須關注數據的生成過程 ——因果模型——對數據負責。在大學里,對因果關系的思考并不是大多數數據科學家會在課上學到的技能,但是這能有效防止我們從數字中得出錯誤結論。一個真正好的數據科學家不僅是數據分析上的專家,他也能結合專業領域的知識,做出更好的決策。

數據是一種強大的武器,它可以是幫助我們了解世界的工具,也可以成為他人愚弄我們的幫兇。我們必須始終保持對數據的懷疑態度,理性思考,并多問“為什么”。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7176

    瀏覽量

    89715
  • APP
    APP
    +關注

    關注

    33

    文章

    1580

    瀏覽量

    72841

原文標題:辛普森的悖論:如何用相同的數據證明相反的論點

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    求助,ADC接地的重要性

    ADC接地的重要性
    發表于 06-04 07:56

    53.第4節 PowerBI高級:10 辛普森悖論

    Power
    充八萬
    發布于 :2023年07月12日 14:51:35

    關于程序員的痛苦的一種悖論

    “好的程序員大部分的時間都在干他們厭惡的事情、使用他們厭惡的技術和工具。”這是反常理的,看上去就是悖論;你會認為爛程序員才會把時間都花在爛技術上,優秀的程序員會把時間花在那些尖端的技術上。不是嗎?我
    發表于 11-10 16:52

    BGA焊接溫度控制重要性

    `請問BGA焊接溫度控制重要性有哪些?`
    發表于 03-26 16:41

    Syncer模塊的重要性是什么?

    我在我的項目中使用25G以太網IP。通過打開此IP的示例設計,我們可以看到許多SYNCER模塊,一個FSM模塊和一個流量生成器模塊。我想問一下這些Syncer模塊的重要性是什么,我是否需要在我的最終設計中使用所有syncer模塊。
    發表于 05-18 09:25

    代碼規范的重要性是什么

    論代碼規范的重要性
    發表于 05-19 13:07

    什么是網絡拓撲,它的重要性是什么?

    什么是網絡拓撲,它的重要性是什么?
    發表于 03-17 06:50

    時鐘服務器的重要性是什么?

    時鐘服務器的重要性是什么?
    發表于 11-08 08:31

    UPS的重要性

    中心機房的UPS太重要了,前不久就出現過停電壞了一個磁盤陳列硬盤的事故,一個2T的硬盤壞了,還好有一個備用的硬盤使用,否則磁盤陳列里的資料就岌岌可危了。服務器多了,UPS的重要性尤其重要,學校周邊
    發表于 11-16 09:09

    arm匯編的重要性是什么?

    arm匯編的重要性是什么?
    發表于 11-30 08:03

    POE浪涌保護的重要性是什么?

    POE浪涌保護的重要性是什么?
    發表于 01-14 06:07

    電腦的悖論你知多少

    電腦的悖論你知多少  1、壓縮的壓縮軟件:   向朋友索取一個 WinRAR 壓縮軟件,他用電子郵件發送過來。可能是為了
    發表于 02-23 14:59 ?474次閱讀

    一種消除傳感網絡由雷斯悖論現象的算法

    基于博弈論的傳感網路由協議中存在布雷斯悖論現象使路由選擇不能達到全局最優效果,而現有的路由協議忽視了對這一問題的研究。分析了布雷斯悖論對傳感網路由協議的影響,提出了一種消除傳感網路由協議中布雷斯悖論
    發表于 01-16 16:44 ?0次下載

    對于數字貨幣而言有哪十大悖論

    悖論四:去中心化的世界,卻被中心化的交易所和礦機廠商卡住咽喉區塊鏈人會告訴你,這是一個去中心化的世界。但是,現實是這個世界被中心化的交易所和礦機廠商所掌控。更要命的是,相比金融市場受到各種監管約束
    發表于 08-27 10:29 ?1154次閱讀

    莫拉維克悖論與多模態AI:邁向機器人認知的新時代

    莫拉維克悖論揭示了人工智能系統在處理高級推理與基本感知運動技能上的巨大差異。對于AI而言,復雜的邏輯任務似乎比人類習以為常的感知運動技能更容易實現。這一悖論凸顯了當前AI與人類認知能力之間的鴻溝。
    的頭像 發表于 10-26 15:00 ?705次閱讀
    主站蜘蛛池模板: 欧洲天堂网 | 免费午夜影片在线观看影院 | 永久免费精品影视网站 | 三级在线观看 | 小雪被撑暴黑人黑人与亚洲女人 | 色花堂国产精品首页第一页 | 天堂网www在线资源中文 | 性欧美护士18xxxxhd视频 | 色香影视 | 91久久精品青青草原伊人 | 特一级毛片| 午夜免费看视频 | 亚洲高清一区二区三区 | 狠狠干狠狠搞 | 成人午夜亚洲影视在线观看 | 亚洲福利一区二区 | 久久频这里精品99香蕉久网址 | free性日韩 | 天天久久影视色香综合网 | 四虎永久在线精品免费观看地址 | 一区视频在线播放 | 濑亚美莉vs黑人欧美视频 | 国产在线视欧美亚综合 | 日本黄页网 | 国产精品欧美激情在线播放 | 一级黄色片欧美 | 成人的天堂视频一区二区三区 | 黄色免费的视频 | 色网站免费看 | 日韩特黄 | 欧美中字| 九色视频网| 四虎影视永久在线精品免费播放 | 婷婷色香五月激情综合2020 | 人人公开免费超级碰碰碰视频 | 波多野结衣久久精品 | 天天插天天透 | 九色视频在线播放 | 99色99| 狂捣猛撞侍卫攻双性王爷受 | 奇米小说 |