武道至尊帝临小说,雪鹰领主,盗墓笔记全集

對于數據科學家而言，了解統計現象和問“為什么”是非常重要的。

想象這樣一個場景：一天，你和朋友約好了一起吃晚飯，你們倆都想找一家完美的餐廳。由于選項太多，兩人今天的口味也不一定一樣，為了避免長達數小時的爭論，你們保守地采用了現代人常用的一種方法：查看美食評論。

在用同一個APP看了所有餐廳后，最終你們鎖定了其中的兩家：Carlo's餐廳和Sophia餐廳。你更喜歡Carlo's，因為從兩性數據上看來，無論是男性用餐者還是女性用餐者，他們給出的好評率都更高（例：男性好評率=男性好評數/男性評論總數）；而你的朋友更傾向于Sophia，因為他發現從整體上來看，Sophia的好評率更高，口味應該更大眾。

那么這到底是怎么回事？是APP統計錯誤了嗎？事實上，這兩個統計結論都是正確的，只是你們在不知不覺中已經走進了辛普森悖論。在這里，我們能用完全相同的一組數據證明兩個全然相反的論點。

什么是辛普森悖論？

辛普森悖論得名于英國統計學家E.H.辛普森（E.H.Simpson），這是他于1951年闡述的一種現象：當我們以分組和聚合兩種方式統計同一數據集時，最后得出的兩個趨勢可能是完全逆轉的。在上面這個“吃飯”案例中，Carlo's餐廳的兩性推薦率更高，但它的總體推薦率卻低了。如果不想被繞暈，我們可以用一些直觀的數據來說明：

上表清楚地表明，當數據分組時，Carlo's是首選，但是當數據合并時，Sophia是首選！

導致這一悖論的原因是樣本大小。當我們分組統計數據時，Carlo's餐廳的女性推薦率高達90%，但它的樣本只有40個，只占總評論人數的10%；而Sophia餐廳的女性推薦率雖然只有80%，但女性評論者有250個，這顯然會大幅拉高餐廳的總體好評率。

所以在挑選餐廳時，我們事先要確定數據的統計方法，是合并更合理，還是分組更合理——這取決于數據生成的過程，即數據的因果模型。

相關性的逆轉

在我們的生活中，另一種常見的辛普森悖論是分組、聚合討論數據后，元素之間的相關性也出現了逆轉。舉一個簡單的例子，假設我們有50歲以上和50歲以下兩組患者，在收集了他們的每周運動小時數和病發風險后，我們得到了下面兩幅有關運動和病情惡化幾率關系的圖表：

左：50歲以下；右：50歲以上（橫坐標為運動小時數，縱坐標為惡化風險）

上圖很清楚地表明兩者是負相關的，每周運動得越久，患者病情惡化的可能性就更低。但是，如果我們把兩組數據結合在一起：

全年齡段患者的運動小時數和病情惡化幾率關系圖

運動和病情惡化的相關性就完全逆轉了！如果只呈現這一幅圖，最后我們得出的結論會是運動增加惡化幾率。同一組數據，截然不同的結論，同樣的，這個例子的問題也在于數據生成過程——我們沒能收集完整的成因數據，自然也解釋不了最終結果。

解決悖論

為了避免辛普森的悖論導致我們得出兩個相反的結論，最直接的方法是決定分組還是聚合。這看起來很簡單，但做起來并不容易。要做對選擇題，首先我們要考慮因果關系：數據是怎么產生的？影響結果的因素有哪些？其中有哪些是我們沒有呈現的？

以運動和病情惡化的分析為例，很明顯，運動肯定不是影響病情加重的唯一因素，飲食、環境、遺傳……它的影響因素非常復雜。但在上圖中，我們只看到了惡化幾率和運動時長之間的關系，在沒有控制變量的情況下，這相當于假設惡化只是由運動引起的，顯然不合理。

例如，如果我們考慮了原數據中被忽略的那個因素：年齡。

通過下圖我們可以發現，無論是50歲以下還是50歲以上，患者的年齡和病情惡化幾率都顯示出強烈正相關。這意味著隨著患者年齡增加，即便每周運動量相同，老年患者也比年輕患者更容易病情惡化。

患者年齡和病情惡化幾率關系圖

在這種情況下，分組討論數據是規避辛普森悖論的一種方式。這和做科學實驗一樣，但凡數據間涉及因果關系，我們都應該在分析之前控制好變量，確保數據的合理分層。

而在選餐廳那個例子中，解決悖論的方法是重新審視自己想要解決的問題——既然目標是選擇完美的餐廳，力求口味大眾化，避免踩雷，那分性別統計就意義不大了。在那種情況下，聚合數據最有意義。

現實生活中的辛普森悖論

看到這里，也許有的讀者會覺得這個悖論太簡單了，它應該就只是統計學里的一個概念，不可能有人會犯這種錯。但事實上，在現實世界中，我們確實也有許多著名的辛普森悖論研究案例。

一個比較典型的例子是兩種腎結石治療方案的取舍。根據臨床實驗數據，醫生發現在治療小結石和大結石時，方案A都有更好的效果；但是如果綜合兩種腎結石來看，方案B的治愈率更高。下面是具體數據：

如果是你，你會選哪種治療方案？這個問題要結合醫療領域的數據生成過程——因果模型。在實際操作中，就病情嚴重情況而言，大結石肯定比小結石嚴重得多，而方案A比方案B更具侵入性（醫學上帶有一定創傷性的治療措施）。因此，如果患者的腎結石很小，醫生一般會保守起見，采用方案B；而如果患者的腎結石很大，醫生就會直接用效果最好的方案A。

由于方案A更適用于嚴重病例，它的總體治愈率肯定會低于方案B。

我們把這個例子中的“病情嚴重性”稱為混淆變量，因為它和自變量（治療方案）、因變量（治愈）均相關。我們是沒法從數據中直接看到這個變量的，但如果繪制了因果關系圖，一切就很明確了：

因果關系圖和混淆變量

如上圖所示，兩種方案的治愈率都受所選擇的治療方案和結石大小影響，而選擇治療方案本身也受結石大小影響。這意味著如果要做全面定量實驗，我們必須控制結石大小，比較兩種方案的治愈率情況。根據實驗結果，方案A的效果更好。

如果不做實驗，我們換一種思路也能解答這個問題。如果患者的結石較小，治愈率更高的方案A更好；如果患者的結石較大，還是方案A更好。由于患者肯定會有或大或小的結石，綜合來看，選擇方案A肯定是效果最好的。

有時候，查看聚合數據很有用，但在一些情況下，它也可能模糊事件的真相。

另一個現實案例

第二個現實案例是政治觀點上的辛普森悖論。下表是杰拉爾德·福特擔任美國總統期間的稅收、稅率變化，可以發現，從1974年到1978年，每個收入群體的稅率都不同程度下降了，但社會整體稅率卻提高了。

所有個人稅率均下降，但整體稅率上升

根據前面的介紹，讀到這里，相信大家應該已經學會了該如何解釋這個悖論：尋找影響整體稅率的其他因素。社會整體稅率是兩個因子的函數，它和各收入群體的稅率有關，也和各收入群體的總收入金額相關。1978年，美國由于通貨膨脹導致居民工資出現顯著增長，國民整體收入提高，再加上高收入群體稅率降低少，全國的整體稅率實際上是提高了。

除了數據生成過程之外，是否匯總數據還應取決于我們想要回答的問題。仍以稅收的例子為例，在個人層面上，我們只是個人，所以只關心自己的稅率。但為了確定自己是不是多交稅了，除了觀察稅率變化，我們還應該留意工資的增長情況。影響稅率的重要因素有兩個，而表格只提供了其中一個，由此得出的統計結果是不準確的。

辛普森悖論的重要性

辛普森悖論非常重要，因為它時刻在提醒我們，表格中顯示的數據可能并不是所有數據。我們不能只滿足于數字、數據，而必須關注數據的生成過程 ——因果模型——對數據負責。在大學里，對因果關系的思考并不是大多數數據科學家會在課上學到的技能，但是這能有效防止我們從數字中得出錯誤結論。一個真正好的數據科學家不僅是數據分析上的專家，他也能結合專業領域的知識，做出更好的決策。

數據是一種強大的武器，它可以是幫助我們了解世界的工具，也可以成為他人愚弄我們的幫兇。我們必須始終保持對數據的懷疑態度，理性思考，并多問“為什么”。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

數據

數據

+關注

關注
8

文章
7246

瀏覽量
91162
APP

APP

+關注

關注
33

文章
1585

瀏覽量
73864

原文標題：辛普森的悖論：如何用相同的數據證明相反的論點

文章出處：【微信號：jqr_AI，微信公眾號：論智】歡迎添加關注！文章轉載請注明出處。

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

什么是辛普森悖論？辛普森悖論的重要性

評論