回歸均值

本文的閱讀等級:初級

《聖經》創世紀41(17-32)記載約瑟為法老解夢的故事。

法老對約瑟說:「我夢見我站在河邊,有七隻母牛從河裡上來,又肥壯又美好,在蘆荻中吃草。隨後又有七隻母牛上來,又軟弱又醜陋又乾瘦,在埃及遍地我沒有見過這樣不好的。這又乾瘦又醜陋的母牛吃盡了那以先的七隻肥母牛,吃了以後卻看不出是吃了,那醜陋的樣子仍舊和先前一樣。我就醒了。我又夢見一棵麥子,長了七個穗子,又飽滿又佳美。隨後又長了七個穗子,枯槁細弱,被東風吹焦了。這些細弱的穗子吞了那七個佳美的穗子。我將這夢告訴了術士,卻沒有人能給我解說。」

約瑟對法老說:「法老的夢乃是一個,神已將所要做的事指示法老了。七隻好母牛是七年,七個好穗子也是七年。這夢乃是一個。那隨後上來的七隻又乾瘦又醜陋的母牛是七年,那七個虛空、被東風吹焦的穗子也是七年,都是七個荒年。這就是我對法老所說,神已將所要做的事顯明給法老了。埃及遍地必來七個大豐年,隨後又要來七個荒年,甚至埃及地都忘了先前的豐收,全地必被饑荒所滅。因那以後的饑荒甚大,便不覺得先前的豐收了。至於法老兩回做夢,是因神命定這事,而且必速速成就。」

從古至今,世上每一個文明總會對「好景難常在,過眼韶華如箭」發出無奈的感嘆。然而,我們也都相信「柳暗花明又一村」,事情終有好轉的一天。「樂極生悲」和「否極泰來」真的是大自然的定則嗎?

 
1886年,英國遺傳學家高爾頓爵士 (Sir Francis Galton) 進行了一項親子身高的研究,他發現親子的身高雖然具有相關性 (父母的身高會遺傳給子女),但子女的身高卻有逐漸「回歸到平均值」(regression toward the mean) 的現象,以下簡稱為「回歸均值」。直白地說,高父母生出高子女,但其子女往往比父母矮小;或者打個誇張的比喻,偉人的後代子孫多半平庸。高爾頓提出的「回歸均值」不僅是一個機率統計學的概念,還表明從分布的邊緣往中心移動是一個無可避免、持續不斷的動態過程,致使常態分布成為與此過程一致的結果。英國統計學家皮爾生 (Karl Pearson) 也是高爾頓傳記的作者,說道:「高爾頓對我們的科學觀念發動一場革命,修正了我們的科學哲學,甚至也校訂了人生[1]。」

Sir Francis Galton (1822–1911) From Wikimedia

 
1885年,高爾頓被選為不列顛科學協進會 (British Association for the Advancement of Science,後更名為 British Science Association) 主席,並獲得了一筆經費從事親子身高變化的研究。他收集205對父母,及其928名成年子女的身高數據。高爾頓先校正男女的身高差異,他將每一位女性身高乘以 1.08,並以父母身高的平均數,稱為父母平均高 (height of mid-parent),作為分析的變數。同時,高爾頓也確認了數據資料不存在高男人娶高女人,或矮女人嫁矮男人的系統化傾向。次年,高爾頓發表了他的研究結果,親子身高的統計資料整理如下表 (單位吋)[2]

\scriptsize\displaystyle \begin{array}{cccccccccccccccccc} \hline\\ ~&\text{Total}& <&62.2&63.2&64.2&65.2&66.2&67.2&68.2&69.2&70.2&71.2&72.2&73.2& >&\text{Total}&\text{Median}\\\hline >&5& - & -& -& -& -& -& -& -& -& -& -&1&3& -&4&-\\ 72.5&6&-&-&-&-&-&-&-&1&2&1&2&7&2&4&19&72.2\\ 71.5&11&-&-&-&-&1&3&4&3&5&10&4&9&2&2&43&69.9\\ 70.5&22&1&-&1&-&1&1&3&12&18&14&7&4&3&3&68&69.5\\ 69.5&41&-&-&1&16&4&17&27&20&33&25&20&11&4&5&183&68.9\\ 68.5&49&1&-&7&11&16&25&31&34&48&21&18&4&3&-&219&68.2\\ 67.5&33&-&3&5&14&15&36&38&28&38&19&11&4&-&-&211&67.6\\ 66.5&20&-&3&3&5&2&17&17&14&13&4&-&-&-&-&78&67.2\\ 65.5&12&1&-&9&5&7&11&11&7&7&5&2&1&-&-&66&66.7\\ 64.5&5&1&1&4&4&1&5&5&-&2&-&-&-&-&-&23&65.8\\ <&1&1&-&2&4&1&2&2&1&1&-&-&-&-&-&14&-\\\hline \text{Total}&205&5&7&32&59&48&117&138&120&167&99&64&41&17&14&928&-\\ \text{Median}&-&-&-&66.3&67.8&67.9&67.7&67.9&68.3&68.5&69.0&69.0&70.0&-&-&-&-\\\hline \end{array}

  • 最左欄為父母平均高級距,左起第二欄 (Total) 為該組包含多少對父母,譬如,有22對父母的平均高為70.5吋。資料顯示父母平均高呈常態分布。
  • 最上列為成年子女身高級距,右起第二欄 (Total) 表示各組父母共有多少名成年子女,最右欄 (Median) 是這些子女的身高中位數。譬如,平均身高為70.5吋的父母共有68名成年子女,他們的身高中位數是69.5吋,其中7人的身高是71.2吋。底起第二列 (Total) 顯示子女身高呈常態分布,而且每組父母生育的子女身高亦為常態分布。
  • 資料從左下角至右上角呈對角線分布,父母與成年子女的身高具有正相關性,即高父母的子女身高也超過同儕。
  • 比較最右欄 (Median) 與最左欄,證實「回歸均值」現象的確存在:當父母平均高大於親系平均身高68.5吋時,子女的身高中位數都小於父母平均高;當父母平均高小於68.5吋時,子女的身高中位數皆大於父母平均高。譬如,父母平均高為70.5吋 (比68.5吋高2吋) 的子女平均身高為69.2吋,與父母平均高的差距 (1.3吋) 僅及父母平均高偏移親系平均身高的2/3。

 
從因果論來看,如果沒有「回歸均值」,那麼高父母的後代會一代比一代高,矮父母的後代則一代比一代矮,最後世上只見巨人和侏儒。高爾頓對於觀察出的回歸現象如此解釋:「孩子的遺傳一部分得自父母,一部分得自祖先。一般而言,族譜向上追溯愈久遠,祖先人數就愈多,也更加多樣化,最後就跟採自任何種族,人數一樣多的任意樣本,沒有什麼差別[3]。」高爾頓的理論並不正確,因為子女僅從父母身上得到基因,所有祖先的基因物質都透過父母遺傳給子女。

 
撇開遺傳學,我們可以從機率模型來解釋「回歸均值」。令 x 表示父母平均高,y 表示成年子女的身高。如果父母平均高和子女身高服從二變量常態分布,則給定 x,條件密度函數 p(y\vert x) 亦為常態分布 (見“多變量常態分布”),且條件期望值 E[y\vert x] 滿足

\displaystyle \frac{E[y\vert x]-E[y]}{\sigma_y}=\rho\frac{x-E[x]}{\sigma_x}

條件變異數則為

\displaystyle \hbox{var}[y\vert x]=\sigma_y^2(1-\rho^2)

其中 \rhoxy 的相關係數 (correlation coefficient,見“相關係數”),E[x]E[y] 分別是 xy 的期望值,\sigma_x\sigma_y 分別是 xy 的標準差。如果 \sigma_x=\sigma_y-1<\rho<1,則

\displaystyle \left| E[y\vert x]-E[y]\right|<\left| x-E[x]\right|

換句話說,子女身高 y 的條件期望值偏離子系平均身高 E[y] 不會大於父母平均高 x 偏離親系平均身高 E[x]

 
既然約瑟對法老的預言──七年豐收後有七年饑荒──是「回歸均值」注定的世間事物的變動規律,法老大可無為而治,反正七年饑荒後還會有七年豐收,繁榮就在下一條街口等著。不過,「回歸均值」並不是一個有效的決策綱領。一方面回歸過程可能耗時過久,還沒等到七年豐收來臨,埃及說不定就在七年饑荒期間爆發動亂而覆亡;另一方面,平均數本身可能不穩定,系統性因素如氣候變遷、環境汙染皆會危害農業生產,等待「回歸均值」發生變得沒有實質意義。法老聽信約瑟的預言與建議,便指派他治理埃及全地,創世紀41(46-57)記載: 

約瑟見埃及王法老的時候年三十歲。他從法老面前出去,遍行埃及全地。七個豐年之內,地的出產極豐極盛,約瑟聚斂埃及地七個豐年一切的糧食,把糧食積存在各城裡,各城周圍田地的糧食都積存在本城裡。約瑟積蓄五穀甚多,如同海邊的沙,無法計算,因為穀不可勝數……埃及地的七個豐年一完,七個荒年就來了,正如約瑟所說的。各地都有饑荒,唯獨埃及全地有糧食。及至埃及全地有了饑荒,眾民向法老哀求糧食。法老對他們說:「你們往約瑟那裡去,凡他所說的,你們都要做。」當時饑荒遍滿天下,約瑟開了各處的倉,糶糧給埃及人。在埃及地饑荒甚大。各地的人都往埃及去,到約瑟那裡糴糧,因為天下的饑荒甚大。

 
引用來源:
[1] Peter L Bernstein, Against the Gods:The Remarkable Story of Risk, 1996. 原文是 “Galton had created a revolution in our scientific ideas [that] has modified our philosophy of science and even of life itself.” 譯文取自中譯本《與天為敵》,張定綺譯,商周出版,1998。
[2] Francis Galton, Regression towards mediocrity in hereditary stature, Journal of the Anthropological Institute, 15, pp 246-263 ,1886.
[3] 維基百科:Regression toward the mean 原文是 “A child inherits partly from his parents, partly from his ancestors. Speaking generally, the further his genealogy goes back, the more numerous and varied will his ancestry become, until they cease to differ from any equally numerous sample taken at haphazard from the race at large.” 譯文取自[1]。

廣告
本篇發表於 機率統計 並標籤為 , 。將永久鏈結加入書籤。

2 Responses to 回歸均值

  1. levinc417 說道:

    建議老師一些學術的使用名稱,可否加上英文或原文呀? 比如此文標題是:"mean reversion" 或 " mean regression"…XD 當然讀過全文是可以了解啦

    • ccjou 說道:

      謝謝你的建議。上文一開始就提到「回歸到平均值」(regression toward the mean) ,但我嫌這個名稱太冗長,因此才簡稱「均值回歸」。不過這可能會跟金融市場的 mean reversion 搞混,應該簡稱「回歸均值」比較洽當。剛才搜尋網路,確實也有些人這麼簡稱,所以我將原題改成「回歸均值」。

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

您的留言將使用 WordPress.com 帳號。 登出 / 變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 / 變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 / 變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 / 變更 )

連結到 %s