對于數據科學家而言,了解統計現象和問“為什么”是非常重要的。
想象這樣一個場景:一天,你和朋友約好了一起吃晚飯,你們倆都想找一家完美的餐廳。由于選項太多,兩人今天的口味也不一定一樣,為了避免長達數小時的爭論,你們保守地采用了現代人常用的一種方法:查看美食評論。
在用同一個APP看了所有餐廳后,最終你們鎖定了其中的兩家:Carlo's餐廳和Sophia餐廳。你更喜歡Carlo's,因為從兩性數據上看來,無論是男性用餐者還是女性用餐者,他們給出的好評率都更高(例:男性好評率=男性好評數/男性評論總數);而你的朋友更傾向于Sophia,因為他發現從整體上來看,Sophia的好評率更高,口味應該更大眾。
那么這到底是怎么回事?是APP統計錯誤了嗎?事實上,這兩個統計結論都是正確的,只是你們在不知不覺中已經走進了辛普森悖論。在這里,我們能用完全相同的一組數據證明兩個全然相反的論點。
什么是辛普森悖論?
辛普森悖論得名于英國統計學家E.H.辛普森(E.H.Simpson),這是他于1951年闡述的一種現象:當我們以分組和聚合兩種方式統計同一數據集時,最后得出的兩個趨勢可能是完全逆轉的。在上面這個“吃飯”案例中,Carlo's餐廳的兩性推薦率更高,但它的總體推薦率卻低了。如果不想被繞暈,我們可以用一些直觀的數據來說明:
上表清楚地表明,當數據分組時,Carlo's是首選,但是當數據合并時,Sophia是首選!
導致這一悖論的原因是樣本大小。當我們分組統計數據時,Carlo's餐廳的女性推薦率高達90%,但它的樣本只有40個,只占總評論人數的10%;而Sophia餐廳的女性推薦率雖然只有80%,但女性評論者有250個,這顯然會大幅拉高餐廳的總體好評率。
所以在挑選餐廳時,我們事先要確定數據的統計方法,是合并更合理,還是分組更合理——這取決于數據生成的過程,即數據的因果模型。
相關性的逆轉
在我們的生活中,另一種常見的辛普森悖論是分組、聚合討論數據后,元素之間的相關性也出現了逆轉。舉一個簡單的例子,假設我們有50歲以上和50歲以下兩組患者,在收集了他們的每周運動小時數和病發風險后,我們得到了下面兩幅有關運動和病情惡化幾率關系的圖表:
左:50歲以下;右:50歲以上(橫坐標為運動小時數,縱坐標為惡化風險)
上圖很清楚地表明兩者是負相關的,每周運動得越久,患者病情惡化的可能性就更低。但是,如果我們把兩組數據結合在一起:
全年齡段患者的運動小時數和病情惡化幾率關系圖
運動和病情惡化的相關性就完全逆轉了!如果只呈現這一幅圖,最后我們得出的結論會是運動增加惡化幾率。同一組數據,截然不同的結論,同樣的,這個例子的問題也在于數據生成過程——我們沒能收集完整的成因數據,自然也解釋不了最終結果。
解決悖論
為了避免辛普森的悖論導致我們得出兩個相反的結論,最直接的方法是決定分組還是聚合。這看起來很簡單,但做起來并不容易。要做對選擇題,首先我們要考慮因果關系:數據是怎么產生的?影響結果的因素有哪些?其中有哪些是我們沒有呈現的?
以運動和病情惡化的分析為例,很明顯,運動肯定不是影響病情加重的唯一因素,飲食、環境、遺傳……它的影響因素非常復雜。但在上圖中,我們只看到了惡化幾率和運動時長之間的關系,在沒有控制變量的情況下,這相當于假設惡化只是由運動引起的,顯然不合理。
例如,如果我們考慮了原數據中被忽略的那個因素:年齡。
通過下圖我們可以發現,無論是50歲以下還是50歲以上,患者的年齡和病情惡化幾率都顯示出強烈正相關。這意味著隨著患者年齡增加,即便每周運動量相同,老年患者也比年輕患者更容易病情惡化。
患者年齡和病情惡化幾率關系圖
在這種情況下,分組討論數據是規避辛普森悖論的一種方式。這和做科學實驗一樣,但凡數據間涉及因果關系,我們都應該在分析之前控制好變量,確保數據的合理分層。
而在選餐廳那個例子中,解決悖論的方法是重新審視自己想要解決的問題——既然目標是選擇完美的餐廳,力求口味大眾化,避免踩雷,那分性別統計就意義不大了。在那種情況下,聚合數據最有意義。
現實生活中的辛普森悖論
看到這里,也許有的讀者會覺得這個悖論太簡單了,它應該就只是統計學里的一個概念,不可能有人會犯這種錯。但事實上,在現實世界中,我們確實也有許多著名的辛普森悖論研究案例。
一個比較典型的例子是兩種腎結石治療方案的取舍。根據臨床實驗數據,醫生發現在治療小結石和大結石時,方案A都有更好的效果;但是如果綜合兩種腎結石來看,方案B的治愈率更高。下面是具體數據:
如果是你,你會選哪種治療方案?這個問題要結合醫療領域的數據生成過程——因果模型。在實際操作中,就病情嚴重情況而言,大結石肯定比小結石嚴重得多,而方案A比方案B更具侵入性(醫學上帶有一定創傷性的治療措施)。因此,如果患者的腎結石很小,醫生一般會保守起見,采用方案B;而如果患者的腎結石很大,醫生就會直接用效果最好的方案A。
由于方案A更適用于嚴重病例,它的總體治愈率肯定會低于方案B。
我們把這個例子中的“病情嚴重性”稱為混淆變量,因為它和自變量(治療方案)、因變量(治愈)均相關。我們是沒法從數據中直接看到這個變量的,但如果繪制了因果關系圖,一切就很明確了:
因果關系圖和混淆變量
如上圖所示,兩種方案的治愈率都受所選擇的治療方案和結石大小影響,而選擇治療方案本身也受結石大小影響。這意味著如果要做全面定量實驗,我們必須控制結石大小,比較兩種方案的治愈率情況。根據實驗結果,方案A的效果更好。
如果不做實驗,我們換一種思路也能解答這個問題。如果患者的結石較小,治愈率更高的方案A更好;如果患者的結石較大,還是方案A更好。由于患者肯定會有或大或小的結石,綜合來看,選擇方案A肯定是效果最好的。
有時候,查看聚合數據很有用,但在一些情況下,它也可能模糊事件的真相。
另一個現實案例
第二個現實案例是政治觀點上的辛普森悖論。下表是杰拉爾德·福特擔任美國總統期間的稅收、稅率變化,可以發現,從1974年到1978年,每個收入群體的稅率都不同程度下降了,但社會整體稅率卻提高了。
所有個人稅率均下降,但整體稅率上升
根據前面的介紹,讀到這里,相信大家應該已經學會了該如何解釋這個悖論:尋找影響整體稅率的其他因素。社會整體稅率是兩個因子的函數,它和各收入群體的稅率有關,也和各收入群體的總收入金額相關。1978年,美國由于通貨膨脹導致居民工資出現顯著增長,國民整體收入提高,再加上高收入群體稅率降低少,全國的整體稅率實際上是提高了。
除了數據生成過程之外,是否匯總數據還應取決于我們想要回答的問題。仍以稅收的例子為例,在個人層面上,我們只是個人,所以只關心自己的稅率。但為了確定自己是不是多交稅了,除了觀察稅率變化,我們還應該留意工資的增長情況。影響稅率的重要因素有兩個,而表格只提供了其中一個,由此得出的統計結果是不準確的。
辛普森悖論的重要性
辛普森悖論非常重要,因為它時刻在提醒我們,表格中顯示的數據可能并不是所有數據。我們不能只滿足于數字、數據,而必須關注數據的生成過程 ——因果模型——對數據負責。在大學里,對因果關系的思考并不是大多數數據科學家會在課上學到的技能,但是這能有效防止我們從數字中得出錯誤結論。一個真正好的數據科學家不僅是數據分析上的專家,他也能結合專業領域的知識,做出更好的決策。
數據是一種強大的武器,它可以是幫助我們了解世界的工具,也可以成為他人愚弄我們的幫兇。我們必須始終保持對數據的懷疑態度,理性思考,并多問“為什么”。
-
數據
+關注
關注
8文章
7176瀏覽量
89715 -
APP
+關注
關注
33文章
1580瀏覽量
72841
原文標題:辛普森的悖論:如何用相同的數據證明相反的論點
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
![](https://file.elecfans.com/web2/M00/B0/73/poYBAGSuTVaAFzrgAADb2xHWzOY206.png)
評論