本文的閱讀等級:中級
常態分布 (normal distribution),也稱高斯分布 (Gaussian distribution),其機率密度函數為
,
其中 是平均數 (mean), 是變異數 (variance)。對於 ,多變量常態分布的形式如下 (見“ 多變量常態分布”):
,
其中 是平均數向量, 是 階共變異數矩陣 (covariance matrix), 是 的行列式。常態分布是一種應用相當廣泛的連續型機率分布,原因之一是大自然產生的變數經常具有常態分布,譬如,某城市成年男子的身高,某田地產出的蘿蔔重量;另外,對於從母體隨機抽取出的樣本,當樣本數增大時,樣本平均數的分布逼近常態分布[1] (見“ 樣本平均數、變異數和共變異數”)。圖1為 的一個常態分布樣本。本文從線性代數觀點探討常態分布與共變異數矩陣的幾何涵義。
馬氏距離
常態分布的機率密度函數由下列二次型決定:
,
其中 稱為 與 的馬氏距離 (Mahalanobis distance)。若 ,則 ,馬氏距離退化為歐氏距離 (Euclidean distance)。通過解析馬氏距離的二次型表達式,我們可以深入瞭解常態分布的幾何型態。
任何一個實方陣可分解為對稱矩陣與反對稱矩陣之和 (稱為卡氏分解),且反對稱矩陣的二次型必為零 (見“ 特殊矩陣 (13):反對稱矩陣”)。在不失一般性的原則下,假設 是一個實對稱矩陣。考慮特徵方程 ,其中 ,。實對稱矩陣 的特徵值 與特徵向量 有下列性質 (見“ 實對稱矩陣可正交對角化的證明”):
- 特徵值 是實數,
- 單位特徵向量 組成一個單範正交集 (orthonormal set),即 若 , 若 。
令 且 。不難驗證 是一個實正交 (orthogonal) 矩陣,滿足 。共變異數矩陣 可正交對角化如下:
。
同樣地,逆共變異數矩陣亦可正交對角化為
。
將上式代入馬氏距離公式,
,
上面我們令 。為了有定義良好的馬氏距離 ,上式指出 必須為正數,換句話說,我們要求共變異數矩陣 是一個正定矩陣 (見“ 特殊矩陣 (6):正定矩陣”)。因為 ,
,
可知 參考基底 的座標向量即為 ,其中 ,。另外, 可以解讀為 至 的仿射變換 (見“ 仿射變換”),也就是說, 經過旋轉或鏡射 ,再平移 即得 。
等高線
透過等高線 (contour line),我們可以視覺化常態分布的型態。為方便說明,考慮 的情形。若 ,馬氏距離公式給出
。
如果 ,在新座標系統 ,等高線的軌跡為一個標準橢圓,長軸 (即 軸) 半徑等於 ,短軸 (即 軸) 半徑等於 。在標準座標系統 ,特徵向量 指向長軸方向, 指向短軸方向 (見圖2)。橢圓上的任何一個點 至 的馬氏距離都等於 。若 逼近 ,則橢圓趨於中心為 長度等於 的線段。
對於 維隨機向量 (在不造成混淆的情況下,由上下文決定 代表一個隨機向量或其值),實對稱共變異數矩陣 包含 個獨立參數。當 增大時,我們需要大樣本才能準確估計 ,不僅如此,逆矩陣 的計算也變得格外困難。因為這個緣故,我們經常限制共變異數矩陣的型態。圖3顯示三種等高線圖,(a) 一般共變異數矩陣;(b) 共變異數矩陣是對角矩陣 ,其中 代表隨機變數 的變異數 (稍後將詳細說明);(c) 所有隨機變數 有相同的共變異數,即 。
歸一性
我們證明多變量常態分布 滿足機率密度函數的歸一性 (normalization)。考慮座標系統 的常態分布型態。將座標變換 代入機率密度函數,設為 ,利用 ,可得
上式顯示 是 個獨立單變量常態分布之積,其中各分布的平均數為零,變異數為 ,。利用高斯積分 (見註解[2]),立得
。
將仿射變換 視為一向量函數 ,定義 Jacobian 矩陣 (見“ Jacobian 矩陣與行列式”):
。
利用 ,
,
因此 。運用多重積分換元積分法,可得
,
證明 具有歸一性。
動差
首先,考慮單變量常態分布的動差 (moment)。令 ,明顯地, 對稱於 ,立得
因為
,
對 求導數,可得
。
上式等號兩邊同時乘以 ,即有 。以上結果說明單變量常態分布的參數 是平均數, 是變異數。
接下來,我們討論多變量常態分布的動差並解釋參數 和 的意義。計算隨機向量 的期望值,使用變數變換 ,計算過程如下:
指數函數 是 的偶函數,且積分範圍是 ,根據對稱性可知上式第一項等於零,故得
,
因此我們稱 是常態分布的平均數向量。再考慮二階動差。對於單變量情形,二階動差由 給定。對於多變量情形,共有 個二階動差 ,。因為期望值是線性運算,所有的二階動差可合併為一個 階矩陣 ,計算如下:
上式中,。根據對稱性,交互項 和 的積分等於零。常數項 可提出,剩下的機率密度函數積分等於 。最後我們考慮包含 的積分。令 ,就有 ,則 且 ,故積分為
上式中,當 ,根據對稱性可知積分為零,並使用單變量變異數 。因此,
。
類似單變量變異數,我們定義隨機向量 的共變異數矩陣如下:
。
對於常態分布,利用 和前面結果,可得
即證明 是常態分布的共變異數矩陣。
Cholesky 分解與極分解
運用矩陣分解可以從另一個角度認識常態分布和共變異數矩陣。考慮 的 Cholesky 分解 (見“Cholesky 分解”),其中 是唯一存在的 階下三角矩陣且主對角元都是正數。不過,分解矩陣 不具備清晰的幾何意義。另外,我們可以改寫 的正交對角化表達式為 ,其中 稱為極分解 (見“極分解”), 是一個正交矩陣表示旋轉或鏡射, 是一個正定矩陣表示伸縮。利用極分解,馬氏距離可表示成
。
令 ,即有 ,隨機向量 的機率密度函數變成
,
稱為標準常態分布,平均數向量是 ,共變異數矩陣是 。從標準常態分布出發,即 ,具有一般常態分布的隨機向量 其生成過程可表示為仿射變換:
。
解釋如下:先伸縮標準常態分布的隨機向量 各個變數 (乘以 ),再旋轉 (乘以 ),最後平移 (加上 ),如圖4所示。最後這個結論值得你牢記:共變異數矩陣 的作用在於決定常態分布的伸縮 和旋轉 。
註解
[1] 中央極限定理 (central limit theorem):如果從平均數為 ,變異數為 的母體抽取大小為 的樣本,那麼這些樣本的平均數將近似服從平均數為 ,變異數為 的常態分布。樣本大小 越大,則越近似常態分布。
[2] 考慮單變量的高斯積分
。
將積分平方,運用換元積分法,如下:
其中使用變數變換 ,,並設 。上式開平方根,可得
,
也就有
。
周老師,今天我收到通知我們學校這個星期四有一個Dissertation Proposal Defense,關於central matrix method in dimension reduction regression。我google了一下沒找到相關資料。是不是這個method有其他的名字?
central matrix based method 不是一個公認的名稱,我僅查找到一篇文章:
http://onlinelibrary.wiley.com/doi/10.1002/cjs.11181/abstract
可能是 Sliced inverse regression 的變形:
http://en.wikipedia.org/wiki/Sliced_inverse_regression
謝謝老師。
老師,請問一下若是兩變數獨立的話,共變異數矩陣是不是一個只有對角線上有值,上三角和下三角都是零的矩陣?
是的,相關討論見