樣本平均數與樣本中位數,孰優孰劣?

本文的閱讀等級:初級

美國科學史家孔恩 (Thomas Kuhn) 在其名著《科學革命的結構》(The Structure of Scientific Revolutions) 中說道[1]

一個科學研究傳統,不論多麼專門,學者加入這一科學社群參與研究,主要都是由研究它的典範 (paradigm) 入手。因為他所要加入的社群,其成員都是經由相同的模式習得這門科學的基礎,他加入之後的研究活動,很少會引起公開的對於本行基本前提的異議。研究者以共有的典範為基礎,就能信守相同的研究規則及標準。這種信守的態度及因而產生的明顯共識,是常態科學 (normal science),也就是某一特定研究傳統發生與延續的先決條件。

根據孔恩的解釋,「常態科學指的是以過去的科學成就為基礎所從事的研究,這些科學成就是在某一科學社群的成員在某一時期內所公認的進一步研究的基礎。」至於典範,他在書中序言簡明地說:「我所謂的典範,指的是公認的科學成就,在某一段時間內,它們對於科學家社群而言,是研究工作所要解決的問題與解答的範例。」一個科學社群的典範就是整體的理論、方法、目標、信念和專業導引。譬如,狹義地說,最小平方法──近代統計學、時間序列、訊號處理和一般線性系統最常採用的模型建置方法──即是工程科學的一個重要典範 (見“從線性變換解釋最小平方近似”)。最小平方法最早由高斯 (Carl Friedrich Gauss) 於公元1794年提出,之後發表於1809年出版的《天體運動論》中,法國數學家勒讓德 (Adrien-Marie Legendre) 亦於1806年獨立發現此法,但當時並不為人所知。最小平方法是一種最佳化技術,它通過最小化誤差平方之和來尋找數據的最佳配適 (fitting,或稱擬合) 函數。考慮下面這個簡單的例子:給定一組樣本數據 \{x_1,\ldots,x_n\},為了獲得這組數據的中心值 a,我們設定誤差平方之和為目標函數

\displaystyle  E(a)=\sum_{i=1}^n(x_i-a)^2

理想的中心值 a 具有最小的目標函數值,因此滿足

\displaystyle  \frac{dE}{da}=-2\sum_{i=1}^n(x_i-a)=0

此線性條件式有唯一解,我們習慣以 m\bar{x} 表示:

\displaystyle  \bar{x}=\frac{1}{n}\sum_{i=1}^nx_i

稱為樣本平均數 (見“樣本平均數、變異數和共變異數”)。文末另外補充一個優雅的代數證法。

 
為甚麼不使用誤差絕對值,而要使用誤差平方作為目標函數?令 e_i=x_i-a,若 \vert e_i\vert>1,則 e_i^2>\vert e_i\vert,否則 e_i^2\le\vert e_i\vert。從函數性質來看,相對於誤差絕對值,誤差平方厭惡大誤差,但容忍小誤差。從求解過程來看,誤差平方是中心值 a 的二次函數,故僅有唯一 a 使目標函數 E 最小化。然而,絕對值並非可導函數,最佳解的必要條件是一非線性方程,因此最佳解可能不止一個。在過去微積分當道的兩百年中,不難想像多數人選擇追隨高斯的腳步,誤差平方之和遂成為今日理所當然、無可懷疑的優化目標。

 
美國作家梭羅 (Henry David Thoreau) 說:「我寧可自己一個人坐在一個南瓜上,也不願與別人擠在天鵝羢坐墊上──雖然溫軟,卻有桎梏。」如果我一個人坐在南瓜上,定義誤差絕對值之和為目標函數,會得到甚麼結果?考慮

\displaystyle  \tilde{E}(a)=\sum_{i=1}^n\vert x_i-a\vert

找到 a 使 \tilde{E} 最小化的關鍵在於絕對值函數的導數。若 x\neq 0

\displaystyle  \frac{d\vert x\vert}{dx}=\left\{\begin{matrix}  1:&x>0\\  -1:&x<0  \end{matrix}\right.

x=0d\vert x\vert/dx 未定義。令符號函數 \mathrm{sgn}(x) 如下:

\mathrm{sgn}(x)=\left\{\begin{matrix}  1:&x>0\\  0:&x=0\\  -1:&x<0  \end{matrix}\right.

x\neq 0,符號函數是絕對值函數的導數:

\displaystyle  \frac{d\vert x\vert}{dx}=\mathrm{sgn}(x)

因此,使誤差絕對值之和最小化的必要條件為

\displaystyle  \frac{d\tilde{E}}{da}=-\sum_{i=1}^n\mathrm{sgn}(x_i-a)=0

提醒讀者,這個式子並不嚴謹正確,因為當 a=x_i,上式中 \mathrm{sgn}(x_i-a)=0,實際效果等於忽略計算 d\vert x_i-a\vert/da。欲解出非線性方程 \sum_{i=1}^n\mathrm{sgn}(x_i-a)=0,我們將樣本數據 \{x_1,\ldots,x_n\} 予以等級化,令

x_{[1]}\ge\cdots\ge x_{[n]}

代表序列 x_1,\ldots,x_n 的遞增排序,例如,等級化 \{4, 1, 4, 9, 7\} 可得 x_{[1]}=1x_{[2]}=x_{[3]}=4x_{[4]}=7x_{[5]}=9。當 n 是奇數時,中間等級數即為解,以 \tilde{x} 表示,如下:

\tilde{x}=x_{[\frac{n+1}{2}]}

n 是偶數時,考慮位於中間等級的兩數。若 x_{[\frac{n}{2}]}=x_{[\frac{n}{2}+1]},此即為解;若 x_{[\frac{n}{2}]}<x_{[\frac{n}{2}+1]},區間 \left[x_{[\frac{n}{2}]},x_{[\frac{n}{2}+1]}\right] 內任何數皆有最小的目標函數值。為使結果一致,設定兩數平均為解,即

\displaystyle  \tilde{x}=\frac{1}{2}\left(x_{[\frac{n}{2}]}+x_{[\frac{n}{2}+1]}\right)

不論 n 是奇數或偶數,我們都稱 \tilde{x} 為樣本中位數 (sample median)。例如,\{4,1,4,9,7\} 的樣本中位數是 4,而 \{4,1,4,9,7,11\} 的樣本中位數是 \frac{1}{2}(4+7)=5.5

 
不同的優化目標給出不同的最佳解:誤差平方之和推得樣本平均數 \bar{x},誤差絕對值之和則導出樣本中位數 \tilde{x}。撇開它們的目標函數不談,究竟應該選擇樣本平均數還是樣本中位數?這個問題沒有標準答案,但在多數人心中,平均數是最自然也是最理想的集中趨勢測度。機率學的大數定律 (雖然名為 law of large numbers,其實它是一個定理) 似乎也默默地支持樣本平均數,它說:「當樣本數 n 越大,樣本平均數就越趨於期望值。」不過大數定律也有失效的時候,譬如,若樣本數據來自柯西 (Cauchy) 分布,亦稱勞倫茲 (Lorentzian) 分布[2],不論樣本數有多大,樣本平均數都不會收斂至期望值 (事實上,柯西分布根本未定義期望值和變異數)。如果說高斯分布是常態分布,那麼柯西分布可謂病態 (pathological) 分布[3]。見下圖,高斯分布的中心值為期望值,柯西分布的中心值則是中位數。與高斯分布相比,柯西分布的雙尾較厚,故較可能出現離群值 (outlier),或稱異常值。

Cauchy distribution vs Gaussian distribution From http://www.phys.unsw.edu.au/~mgb/pics/gausscauchy.gif

 
所謂離群值是指一組數據中出現一個與其他數據遠離的觀察值。樣本平均數不是一個強健的 (robust) 統計量,因為它很容易受離群值影響而劇烈變動。譬如,\{4,1,4,9,7\} 的樣本平均數是 5,中位數是 4。如果加入一離群值 101,則 \{4,1,4,9,7,101\} 的樣本平均數是 21,中位數是 5.5。明顯地,樣本中位數比樣本平均數較為強健。為了度量一統計量忍受離群值多寡的能力,統計學家設計了容離值 (breakdown point)。針對一組樣本數據 \{x_1,\ldots,x_n\},任意改變其中 k 個觀察值,在統計量為一有限數值的前提下,我們稱最大比例 k/n 為有限容離值。令 n\to\inftyk/n 即為趨近容離值。考慮樣本平均數 \bar{x},如果 x_1,\ldots,x_{n-1} 維持不變,令 x_n 趨於無限大,則 \bar{x} 同樣趨於無限大,故樣本平均數的容離值為0,也就是說,樣本平均數完全無法抵抗離群值的破壞。「一粒老鼠屎壞了一鍋粥」,這句話的確有數學根據。再考慮樣本中位數 \tilde{x},如果令其中 \left\lfloor\frac{n-1}{2}\right\rfloor 個數值趨於無限大 (正負皆可),\left\lfloor\cdot\right\rfloor 是高斯符號,則 \tilde{x} 仍由其餘多數 n-\left\lfloor\frac{n-1}{2}\right\rfloor 個數值所決定,其數值雖然改變但依然是一有限值。故當 n\to\infty\left\lfloor\frac{n-1}{2n}\right\rfloor 趨於 \frac{1}{2},樣本中位數的趨近容離值等於0.5,此即理論上所能達到的最大值。

 
樣本平均數與樣本中位數,那一個才是一組樣本數據的理想中心測度?從以上討論,這個問題可以轉換成離群值發生的可能性有多高,數值又有多大?弔詭的是離群值絕少發生 (甚至到目前為止從未發生過),所以無法估計它出現的機率,也不能預測它的大小範圍。今天人們常用「黑天鵝事件」來比喻「過去未發生的不代表以後不會發生,可是一旦發生,它往往帶來極大的衝擊」。《黑天鵝效應》(The Black Swan: The Impact of the Highly Improbable)[4]的作者,知識論者塔雷伯 (Nassim Nicholas Taleb) 認為人們對於隨機與不確定性──尤其是罕見的離群事件──其實是相當無知的。針對現今常態科學慣用的假設,他毫不客氣地挖苦說道:

如果你聽到一位「卓越的」經濟學家提到「均衡」(equilibrium) 或「常態分布」,不必與他爭辯,不要管他,或乾脆把一隻老鼠丟進他的上衣裡。

短期間內,塔雷伯的個人意見絕對無法撼動整個科學社群耗時兩百年豎立的典範,除非在可預見的未來,科技、工程或國際金融等領域發生了較為密集且衝擊力巨大的離群事件。不過縱使如此,既有的典範也未必會因此轉移。想想看,在哥白尼之前,天文學家花了一千四百年仍不能使托勒密系統與天象觀測密合,但托勒密系統依舊被時人奉為真理。所以要叫那些擠在天鵝羢坐墊上的人起身,再找個南瓜坐下,這本身就是一個「黑天鵝事件」。

 
補註:
m=\sum_{i=1}^nx_i/n。寫出

\displaystyle\begin{aligned}  \sum_{i=1}^n(x_i-a)^2&=\sum_{i=1}^n\left((x_i-m)+(m-a)\right)^2\\  &=\sum_{i=1}^n\left((x_i-m)^2+(m-a)^2+2(x_i-m)(m-a)\right)\\  &=\sum_{i=1}^n(x_i-m)^2+n(m-a)^2+2\left(\sum_{i=1}^nx_i-nm\right)(m-a).\\  \end{aligned}

根據 m 的定義,上式最末一項為零,即知

\displaystyle\sum_{i=1}^n(x_i-a)^2=\sum_{i=1}^n(x_i-m)^2+n(m-a)^2

這表明 \sum_{i=1}^n(x_i-a)^2\ge\sum_{i=1}^n(x_i-m)^2,等號於 a=m 時成立,故得證。

 
引用來源:
[1] Thomas S. Kuhn, The Structure of Scientific Revolutions, 1972. 中譯《科學革命的結構》,程樹德、傅大為、王道還、錢永祥譯,遠流出版社,1994。
[2] 維基百科:Cauchy distribution
[3] 維基百科:Pathological (mathematics)
[4] 維基百科:The Black Swan: The Impact of the Highly Improbable

This entry was posted in 機率統計 and tagged , , , , . Bookmark the permalink.

6 則回應給 樣本平均數與樣本中位數,孰優孰劣?

  1. Chenlogy 說:

    雖然 我不是理學院的學或哲學系的學生 但是孔恩的這一本書 我深感重要,自亞理斯多德"形上學"的"典範"建立以來,其實我們的思考方式很難跳脫前人設下的固有觀念,例如亞氏的"元素"概念,近年來的"跳轉基因"(此外,免疫基因表現的多樣性來自於免疫基因的隨機組合) 至於近代打破數學典範概念的有"不完備定理",還有LHC啟動以來,尚未尋獲理論物理想要的解果,是否典範出了問題? 等等……..我覺得孔恩的這本書已經變成典範了.

    • ccjou 說:

      孔恩的大作或許是經典,但並未改變現況,雖然我常聽人開口閉口就是「典範轉移」什麼的。

      上文中,“根據孔恩的解釋,常態科學指的是……”後面還有一段沒有打印出來:
      在今天,重述這些成就的任務,是由教科書來承擔,但極少以其原始的形式呈現給讀者。這些教科書闡述業已被科學社群接受的理論,列舉出種種成功的應用例證,再將它們與當初建構這些理論所依據的觀察與實驗範例作比較。

      教科書的任務是重述最小平方法,列舉出成功應用與範例(每次我一看到或聽到「範例」兩個字,立刻頭暈目眩,就是因為「範」那個字),教科書不會說早在1757年克羅埃西亞數學家Ruđer Bošković就提出以誤差絕對值之和作為目標函數之類的事,更不會說從誤差絕對值之和導出的迴歸方程具備抵抗離群值的強健性。

      孔恩在第一章第一段末這麼說:「本書想呈現:教科書在許多基本的方面誤導了我們。」

      • Chenlogy 說:

        謝謝你提醒了我,"經典"的存在.
        “盡信書不如無書"
        在我的求學生涯中,並未將教科書的內容視為真理,
        但也唯有先"學習它",才能"了解它",方能"質疑它",最後"反駁它" (求知做學的態度)
        ——————————————————————————————————–
        柯西分佈,一般來說是…."各階moment"不存在,(很明顯的,在有限區間內的tangent funtion )

        很妙的是,我要引述"註一"書中的幾段話:

        Ch5.page 256:
        “可以證明任何隨機變量的中位數均存在"

        “對於複雜分佈,數學期望的計算較困難,更主要的是某些分佈的"期望"不存在(我覺得說moment比較恰當),故用其他含義定義"平均值","中位數"便是一種… Balabala…
        ——————————————————————————————————
        註一 : 機率論與數理統計 蔣承儀(大陸) 中央圖書(倒了)
        OTZ : 我還跑去翻那沒啥用的教科書,印象中應該有書專討論這部份…書跑哪了?

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

你正使用 WordPress.com 帳號留言。 登出 / 變更 )

Twitter picture

你正使用 Twitter 帳號留言。 登出 / 變更 )

Facebook照片

你正使用 Facebook 帳號留言。 登出 / 變更 )

Google+ photo

你正使用 Google+ 帳號留言。 登出 / 變更 )

連結到 %s