辛普森悖論──違反直覺的奇怪現象

想像你面前有三張桌子 (點選圖片可放大檢視),每張桌上都放了一個黃罐子和一個藍罐子。1 號桌上的黃罐子裡有 5 顆白球和 4 顆紅球,藍罐子裡有 4 顆白球和 3 顆紅球。其他桌上罐子裡的白球和紅球個數如括弧裡的數字所示。你走到每張桌子前,各有一次抽球的機會,你希望能夠抽出白球。

simpson-paradox2

 
你要選擇 1 號桌上的哪個罐子?若選擇黃罐子,抽中白球的機率是 5/9,若選擇藍罐子,抽中白球的機率是 4/7。因為 5/9 < 4/7,毫無疑問,當然要選藍罐子。接著站在 2 號桌前,你仍然應該選擇藍罐子,因為 3/9 < 5/14。

 
最後是 3 號桌,注意,3 號桌的黃罐子和藍罐子裡的球分別由 1 號桌與 2 號桌的對應顏色罐子收集而來 (譬如,黃罐子裡有 8 顆白球,其中 5 顆來自 1 號桌的黃罐子,3 顆來自 2 號桌的黃罐子)。同樣的問題,你要選擇哪個罐子?

 
計算後發現:8/18 > 9/21,大小方向反過來了!這回黃罐子抽中白球的機率大於藍罐子抽中白球的機率!

 
這個現象稱做「辛普森悖論 (Simpson’s paradox)」,意指「在分組比較中都佔優勢的一方,在總合比較時反而是失勢的一方」。此現象早於 20 世紀初便有人討論,1951 年英國統計學家 Edward H. Simpson 始正式描述此現象,之後便以他的名字來命名此悖論。

 
辛普森悖論發生的原因是兩分組資料量差異很大 (1 號桌總球數小於 2 號桌的球數),而且數據分配與其比率相反 (1 號桌黃罐子的白球數 5 大於藍罐子的白球數 4,但從黃罐子抽中白球的機率 5/9 小於從藍罐子抽中白球的機率 4/7)。

 
將上述抽球問題延伸至現實情境,譬如我想要從修課學生的成績來探究「建構式數學是否使學生的數學程度下滑」,假設 1 號桌是電機系學生的班級,2 號桌是非電機系學生的班級,黃罐子是大一學生 (首屆接受建構式教學),藍罐子是大二學生 (未接受建構式教學),紅球表示不及格學生,白球表示及格學生。(為了讓數字看起來較具說服力,我們可以令每個罐子的球數都增大 5 倍。)

 
從電機系和非電機系兩班學生成績都可推論出「教改白老鼠數學程度變差」,但是如果將兩班成績合併,卻得到相反的結論:「教改白老鼠數學程度轉優」。辛普森悖論說明了由兩個變數的相關性並不能推論其因果關係,可能是其他效果更強的隱藏變數影響了學生成績,譬如,電機系學生和非電機系學生之間的差異,或大二學生較大一學生更具優勢等等。

 
想閱讀更多辛普森悖論的實例,請參考維基百科網頁:http://en.wikipedia.org/wiki/Simpson’s_paradox

This entry was posted in 無關線代 and tagged , . Bookmark the permalink.

3 Responses to 辛普森悖論──違反直覺的奇怪現象

  1. foremap says:

    我有問題~
    那衡量標準要怎麼定?
    以教改為例:到底教改算成功還是失敗?
    以整體來看=>教改是成功的
    但以個別群體來看=>教改是失敗的
    所以我們到底應該看整體的,還是看個別的會比較有意義呢?

  2. ccjou says:

    兩者可能都沒意義…
    其他可能影響學生成績表現的因素也必須納入考慮

    你讀過這篇新聞嗎? [教改白老鼠 大一數理直直落]
    http://mag.udn.com/mag/campus/storypage.jsp?f_MAIN_ID=13&f_SUB_ID=3448&f_ART_ID=192539

    這是美國教育當局比較公立和私立學校學生成就表現的66頁報告

    Click to access 20060715report.pdf

    這種事情最好還是交給專業統計學家去辦

  3. Pingback: 卡方檢定 Beyond The Cross :三維列聯表分析( Three-way Table )與辛普森悖論( Simpson’s Paradox ) – 服務科學的分子廚房 Molecular Service Science

Leave a comment